神箭手API应用

神箭手API应用是什么

神箭手API应用依托于神箭手平台,使用JavaScript语言进行开发,跟神箭手爬虫类似,也是通过配置和回调函数,来构建一个可以在神箭手平台上运行并抽取指定数据的应用,并对外提供一个HTTP接口。
一个神箭手API应用的骨架如下:

var configs = {};
var fetcher = new Fetcher(configs);
fetcher.start();

可以看到,跟爬虫很类似,基本设置和回调函数定义在对象configs中,通过new Fetcher(configs)来构建API应用,最后通过start函数来触发数据抽取。
神箭手API应用开发就是通过实现不同的configs对象,来构建不同的API应用。

爬虫的简化版

API应用可以简单理解为是爬虫的单次调用版本,相对于爬虫,API主要少了链接发现模块。

链接调度

API应用实际上只对入口链接做了一次链接调度,基本上可以认为API应用也没有链接调度模块。

网页下载

网页下载跟爬虫没有区别,唯一注意的是,API应用中不建议使用JS渲染,因为会严重影响到API的速度。

数据抽取

跟爬虫几乎完全一样。

数据存储

API应用不做数据存储,而是直接把数据以JSON字符串的形式返回,这个是平台封装好的,开发者不需要做额外的工作。