爬取结果

采集爬虫的爬取结果存放在神箭手提供的数据库存储, 神箭手会对爬取结果进行自动去重.

自动去重

采集爬虫的爬取结果在存储到数据库前会进行自动去重, 以确保爬取结果不重复出现.

数据版本

采集爬虫爬取结果中的数据会出现多个数据版本, 具体分两种情况:

  • 情况一 在爬虫总览页“启动爬虫”时, 选择更新老数据, 或选择爬取新数据并在遇到已经爬过的数据时”更新此数据”;

  • 情况二 “编辑”爬虫爬取结果中的某条数据后“保存”, 则修改后的该条数据会作为新版本, 修改前的数据会作为旧版本.

注意:

1. 自动去重不会影响单条数据的多个数据版本, 当开启更新旧数据设置后, 爬虫在爬取到已经爬过的数据时, 会先与该条数据的最新版数据进行比较, 如果该数据有更新, 则爬虫会将新数据保存为旧数据的新版本;

2.导出爬虫的爬取结果时, 如果数据有多个版本, 神箭手会导出该条数据的最新版;

3.发布爬虫的爬取结果到数据库/网站时, 不论数据有多少个版本, 神箭手都只会发布该条数据第一个版本的数据.