Amazon S3 集成

Amazon S3 集成功能说明 通过 Amazon S3 集成功能,您可以将 Web Scraper 抓取任务的结果自动上传至指定的 S3 存储桶,便于数据备份、共享或后续处理分析。


集成配置: 1.集成功能名称 为该集成任务自定义一个名称,方便后续管理和识别。建议根据用途或抓取对象命名,例如“产品评论结果上传至 S3”。

2.事件类型设置 您可以根据需求选择以下两种方式之一来触发数据发送:

  • 指定任务 ID 适用于将已知的特定抓取任务结果发送到 S3。 适合处理一个抓取工具的多个任务 ID 结果。 多个任务 ID 请使用英文逗号分隔。 最多支持 10 个任务 ID。

  • 跟随任务 自动将该抓取工具后续产生的所有结果上传至 S3。 一次配置,持续生效,除非手动关闭或删除该集成任务。 更适合持续性抓取或周期性任务的自动化数据归档。

3.Amazon S3 参数配置 配置以下信息以完成数据上传设置:

bucketName目标存储桶名称(必填)

目标 Amazon S3 存储桶的名称。

targetPath目标路径(可选)

Amazon S3 的目标位置。

fileName文件名称径(可选)

对象在存储桶中的名字,默认为您的任务ID。

awsAccessKeyAWS访问密钥(必填) 用于授权上传的 AWS 访问密钥 ID。您可以从 AWS 控制台 -> IAM -> 用户 -> 创建用户/选择现有用户 -> 安全凭证 -> 访问密钥 获取。作用类似用户名。

awsSecretKeyAWS密钥(必填) 您的 AWS 秘密访问密钥用于授权上传。您可以从 AWS 控制台 -> IAM -> 用户 -> 创建用户/选择现有用户 -> 安全凭证 -> 访问密钥 -> 创建访问密钥获取该密钥。创建访问密钥后,该秘密访问密钥仅显示一次。作用类似密码。

fileFormat文件格式(必填)

Amazon 产品的结果可以选择 JSON 格式或者 CSV 格式发送。YouTube 产品的结果只可使用文件格式进行发送。 参数值:JSON CSV 下载链接


查看传输的文件:

如果您集成任务的状态显示“成功”,您就可以前往您的 Amazon S3 账户中查看。 或者您可以直接通过链接访问:

https://s3.us-east-2.amazonaws.com/downloaddirectory/您填写的目标路径/文件名

例如:您目标路径填写的 path/to,文件名称填写的 123,传输的文件格式是 json 。 您的访问链接就是:

https://s3.us-east-2.amazonaws.com/downloaddirectory/path/to/123.json


如果您需要更多帮助,请通过邮箱[email protected]联系我们。

Last updated

Was this helpful?