配置

如何配置Thordata 的抓取浏览器

本文将引导您完成 Thordata 抓取浏览器 的整个配置与使用流程,包括凭证获取、基础配置、示例脚本运行及实时会话管理。遵循本指南,您将能够快速上手并高效地进行网页数据抓取。

在开始之前,请先准备好您的账户凭证,即用于网络自动化工具的用户名和密码。 您可以在 Thordata 抓取浏览器 区域的 “演示场”标签页 中直接查看这些凭证信息。我们假设您已获得有效凭证,若尚未获取,请从 Thordata 处申请。

在使用抓取浏览器 之前,需完成基础环境配置。我们将逐步指导您完成身份凭证的配置、API 基本参数设置,以及如何在操作控制台中管理实时浏览器会话,助您更顺畅地启用浏览器功能。

抓取浏览器快速入门示例

我们为您准备了一系列抓取示例,帮助快速入门。您只需替换脚本中的个人凭证和目标网址,即可根据实际业务需求进行调整和扩展。如需编写更复杂的抓取逻辑,可参考 Thordata 官方文档中支持的框架协议说明。

您可以在仪表板中的“演示场”中在线调试脚本,也支持在本地环境中执行实际抓取任务。 若选择本地运行,请确保已安装相应依赖(参考 Thordata 支持的框架协议),正确配置身份凭证后,执行示例脚本即可获取目标数据。

import asyncio  
from playwright.async_api import async_playwright  
  
const AUTH = 'PROXY-FULL-ACCOUNT:PASSWORD';  
const SBR_WS_SERVER = `wss://{AUTH}@ws-browser.thordata.com`;  
  
async def run(pw):  
    print('Connecting to Browser API...')  
    browser = await pw.chromium.connect_over_cdp(SBR_WS_SERVER)  
    try:  
        print('Connected! Navigating to Target...')  

        page = await browser.new_page()  
        await page.goto('https://example.com', timeout= 2 * 60 * 1000) 

        # Screenshot
        print('To Screenshot from page')  
        await page.screenshot(path='./remote_screenshot_page.png')  
        # html content
        print('Scraping page content...')  
        html = await page.content()  
        print(html)  
 
    finally:  
        # In order to better use the Browser API, be sure to close the browser 
        await browser.close()  
   
async def main():  
    async with async_playwright() as playwright:  
        await run(playwright)  
  
if _name_ == '_main_':  
 asyncio.run(main())
 

浏览器API初始导航

根据抓取浏览器的会话管理机制,每个会话仅允许执行一次初始导航,即首次加载目标网站以进行数据提取的操作。在此会话起点确立后,用户便可在该网站内部通过点击、滚动等交互动作自由跳转。然而,任何需要从初始导航阶段重新开始的抓取任务——无论目标是同一网站还是不同网站——都必须通过创建新会话来完成。

会话时间限制

  • 自动超时机制: 所有浏览器会话均受限于30分钟的最大存活时间。若会话未通过脚本指令主动终止,系统将在此时间后自动将其结束。

  • Web控制台特殊限制: 在Web控制台环境中,系统强制实行单账户单一活动会话的策略。为避免资源冲突与潜在错误,请在您的自动化脚本中务必加入显式关闭会话的逻辑。

如果您需要进一步配置方面的帮助,请随时通过以下方式与我们联系: [email protected].

Last updated

Was this helpful?