Snowflake 集成

Snowflake 集成功能说明

通过 Snowflake 集成功能,您可以将 Web Scraper 抓取任务的结果自动上传至指定的系统中,便于数据备份、共享或后续处理分析


集成配置:

1. 集成功能名称

为该集成任务自定义一个名称,方便后续管理和识别。 建议根据用途或抓取对象命名,例如:“产品评论结果上传至 Snowflake”。

2. 事件类型设置

您可以根据需求选择以下两种方式之一来触发数据发送:

  • 指定任务 ID 适用于将已知的特定抓取任务结果发送到 S3。 适合处理一个抓取工具的多个任务 ID 结果。 多个任务 ID 请使用英文逗号分隔,最多支持 10 个任务 ID。

  • 跟随任务 自动将该抓取工具后续产生的所有结果上传至 S3。 一次配置,持续生效,除非手动关闭或删除该集成任务。 更适合持续性抓取或周期性任务的自动化数据归档。

3. Amazon S3 参数配置

请配置以下信息以完成数据上传设置:

account_identifier账户标识符(必填)

通常格式为 <account_name>.<region_id> 或 <org_name>-<account_name>,用于标识唯一的 Snowflake 实例。

database数据库(必填)

目标数据库的名称,是数据存储和查询的逻辑容器。

role角色(必填)

用户在 Snowflake 中的访问角色名称,用于决定权限范围。

user用户(必填)

登录 Snowflake 的用户名。

pwd密码(必填)

用户的密码,用于身份验证。

schema架构(必填)

数据库中的结构化命名空间,用于组织表、视图等对象。

stage阶段(必填)

内部阶段的名称,是 Snowflake 用来暂存文件的地方。

warehouse仓库(必填)

虚拟计算资源,用于执行 SQL 查询和数据加载任务。

file_type文件格式(必填)

Amazon 产品的结果可以选择 JSON 格式或者 CSV 格式发送。YouTube 产品的结果只可使用文件格式进行发送。 参数值:JSON CSV 下载链接


如需更多帮助,请通过邮箱 [email protected] 联系我们。

Last updated

Was this helpful?