Amazon S3 集成
Amazon S3 集成功能说明: 该功能是将指定 Web Scraper API 抓取任务结果发送至 Amazon S3 中。
集成功能名称: 用于定义集成任务的名称,为了方便您的管理,建议您自定义名称。
事件类型: 您可以选择指定任务 ID 进行发送,也可以直接选择跟随任务。 指定任务ID:根据任务ID进行发送抓取的结果,多个请使用英式逗号“,”隔开,最多10个。可输入相同产品的多个抓取 API 的抓取结果的任务ID。 跟随任务:跟随选择的任务进行发送抓取的结果。集成创建成功后,该抓取工具后续的所有抓取结果均会发送,除非您将集成任务关闭或者删除。
发送 Amazon S3 参数:
1、存储桶:
bucketName
目标存储桶名称
目标 Amazon S3 存储桶的名称。
targetPath
目标路径
Amazon S3 的目标位置
fileName
文件名称
用于定义文件名称,默认以任务ID命名。如果您命名后发送多个文件,默认会以-001,-002..加后缀。例如:文件名称-001.json/文件名称-002.json
2、身份验证类型:
访问密钥凭证
awsAccessKey
AWS访问密钥
用于授权上传的 AWS 访问密钥 ID。您可以从 AWS 控制台 -> IAM -> 用户 -> 创建用户/选择现有用户 -> 安全凭证 -> 访问密钥 获取。作用类似用户名。
访问密钥凭证
awsSecretKey
AWS密钥
您的 AWS 秘密访问密钥用于授权上传。您可以从 AWS 控制台 -> IAM -> 用户 -> 创建用户/选择现有用户 -> 安全凭证 -> 访问密钥 -> 创建访问密钥获取该密钥。创建访问密钥后,该秘密访问密钥仅显示一次。作用类似密码。
3、文件格式:
fileFormat
文件格式
Amazon 产品的结果可以选择 JSON 格式或者 CSV 格式发送。YouTube 产品的结果只可使用压缩包格式进行发送。
4、压缩文件:
compressFiles
压缩文件
选择该选项时请确保您的终端节点支持压缩数据
5、批次大小:
batchSize
批次大小
批次大小用于决定发送的文件按照多少条一次进行发送的。最小值为 1000。
查看传输的文件: 如果您集成任务的状态显示“成功”,您就可以前往您的 Amazon S3 账户中查看。 或者您可以直接通过链接访问: https://s3.us-east-2.amazonaws.com/downloaddirectory/您填写的目标路径/文件名
例如:您目标路径填写的 path/to,文件名称填写的 123,传输的文件格式是 json 。 您的访问链接就是: https://s3.us-east-2.amazonaws.com/downloaddirectory/path/to/123.json
如果您需要更多帮助,请通过邮箱support@thordata.com联系我们。
Last updated
Was this helpful?