神箭手开发文档

神箭手应用

神箭手支持在线开发的应用包括采集爬虫实时API.

采集爬虫, 是一个能爬取目标网站所有网页数据的应用.

实时API, 是一个能爬取指定网页数据并实时返回爬取结果的应用. 通过HTTP请求调用, 返回数据格式为JSON.

运行流程

采集爬虫的运行流程:

  • 首先, 通过入口页url, 根据内容页列表页的url正则表达式发现需要的内容页和列表页url, 并添加到待爬队列中;

  • 然后, 通过列表页url, 根据内容页列表页的url正则表达式发现需要的内容页和其他列表页url, 并添加到待爬队列中; 同时, 从内容页中抽取需要的数据并处理后, 保存到数据库中.

注意: 神箭手会自动进行url去重, 即默认情况下已经爬取过的网页url不会再添加到待爬队列重新爬取

实时API的运行流程:

  • 通过入口页url, 抽取并处理数据后, 以JSON形式返回请求.

注意: 在爬取过程中, 如果网页下载失败(返回内容为null), 神箭手应用会自动重试三次. 如果三次重试都下载失败, 采集爬虫会将该网页url放入失败队列中等到爬取结束前再重新处理一次; 实时API会返回错误提示信息

在线开发神箭手应用

在线开发神箭手应用, 需要具备以下技能: