爬取结果

采集爬虫的爬取结果存放在神箭手提供的数据库存储, 神箭手会对爬取结果进行自动去重.

数据库存储

采集爬虫的爬取结果存放在神箭手提供的数据库存储, 不同神箭手套餐享受的数据存储免费额度不同, 如下表所示:

套餐等级 免费额度
个人免费版 免费(1GB)
个人专业版 免费(1.5GB)
个人旗舰版 免费(1.5GB)
企业标准版 免费(2GB)
企业高级版 免费(2GB)

如果您的使用量超过免费额度, 神箭手会按天扣除“数据库存储”的费用(0.5元/GB), 费用将从您的神箭手账户余额中自动扣除.

神箭手会在每天凌晨1点左右给您发送前一天的数据库存储费用订单, 订单内包含费用的具体说明. 您可以在神箭手控制台”个人面板” ——> “订单中心”查看每天的数据库存储费用订单. 订单详情如下图所示:

如果您的账户已经欠费, 神箭手会发送邮件和消息提醒您及时充值. 根据您账户欠费时间的长短, 神箭手会采取相应的措施, 如下表所示:

欠费时长 神箭手采取的措施
超过一天 停止所有爬虫且无法启动
超过一周 API, 自动发布, Webhooks等服务会自动停止且无法继续使用
超过一个月 您创建的应用会被自动删除且无法创建新应用

为了不影响您的正常使用, 请保持您的账户余额充足.

自动去重

采集爬虫的爬取结果在存储到数据库前会进行自动去重, 以确保爬取结果不重复出现.

数据版本

采集爬虫爬取结果中的数据会出现多个数据版本, 具体分两种情况:

  • 情况一 在爬虫总览页“启动爬虫”时, 选择更新老数据, 或选择爬取新数据并在遇到已经爬过的数据时”更新此数据”;

  • 情况二 “编辑”爬虫爬取结果中的某条数据后“保存”, 则修改后的该条数据会作为新版本, 修改前的数据会作为旧版本.

注意:

1. 自动去重不会影响单条数据的多个数据版本, 当开启更新旧数据设置后, 爬虫在爬取到已经爬过的数据时, 会先与该条数据的最新版数据进行比较, 如果该数据有更新, 则爬虫会将新数据保存为旧数据的新版本;

2.导出爬虫的爬取结果时, 如果数据有多个版本, 神箭手会导出该条数据的最新版;

3.发布爬虫的爬取结果到数据库/网站时, 不论数据有多少个版本, 神箭手都只会发布该条数据第一个版本的数据.