定时运行爬虫

登录神箭手后,打开某个未运行的爬虫,点击 “启动”,会弹出设置运行方式和定时运行的对话框:

可以设置:运行方式定时运行,下面将具体介绍。点击启动后,爬虫将按照设定的方式定时休息或者运行。

运行方式

用于设置爬虫启动后如何爬取数据,可以选择 重新爬取更新爬取结果里的数据,也可以两个同时选择(同时选择的话启动后会将先更新爬取结果里的数据,然后再重新爬取)

选择 重新爬取,还需要选择 遇到爬取结果里的数据 如何处理:

  • 跳过继续往后爬取
  • 停止发现新链接(之前发现的新链接仍会继续处理)
  • 更新此数据,更新后继续往后爬取

选择 更新爬取结果里的数据 或者 上一步中选择了 更新此数据,还需要选择 如何更新爬取结果里的数据

  • 保留原数据,插入一条新版本数据
  • 更新原数据

注意:

  1. 如果启动的时候,爬取结果里没有数据,必须选择 “重新爬取数据”;

  2. 保留原数据插入新版本数据的更新方法,适用于保留历史数据。在爬取结果内的展示效果如下图所示:

定时运行

勾选 开启定时启动,便可以打开定时运行的设置:

可以选择运行的 频率有效期启动时间停止时间等,可以按需设置:

注意:

  1. 持续时间表示爬虫运行多长时间;间隔时间表示爬虫运行完成后等待多长时间后又重新运行

定时运行设置建议

下面列出几种常见的定时运行爬虫的场景,并说明如何设置定时运行:

1、每周一早上十点开始重新爬取一遍,不需要更新已有数据。
遇到爬取结果里的数据一项请选择 “跳过继续往后爬取”;定时启动的爬取频率选择 “每周”,停止时间选择 “爬取完成”:

2、每隔半小时爬取一次新增数据。
遇到爬取结果里的数据一项请选择 “停止发现新链接”;定时启动的爬取频率选择 “实时”,间隔时间选择 “30分钟”:

3、每天早上十点更新一次已有数据。
启动后将一项请选择 “更新爬取结果里的数据”;定时启动的爬取频率选择 “每天”,停止时间选择 “爬取完成”: