神箭手数据清洗

神箭手数据清洗是什么

神箭手数据清洗应用依托于神箭手平台,使用JavaScript语言进行开发,通过配置和回调函数,来构建一个可以在神箭手平台上进行数据清洗的应用。
一个数据清洗应用的骨架如下:

var configs = {};
var cleaner = new Cleaner(configs);
cleaner.start();

可以看到,跟爬虫很类似,基本设置和回调函数定义在对象configs中,通过new Cleaner(configs)来构建数据清洗应用,最后通过start函数来启动数据清洗。
神箭手数据清洗应用开发就是通过实现不同的configs对象,来构建不同的数据清洗应用。

平台实现了什么

神箭手数据清洗应用只能清洗平台上的数据(包括爬虫的爬取结果)。平台提供了可视化的设置,来设置清洗的输入数据和输出数据。运行时,会按顺序读取输入数据并进行调度,处理后得到的数据会自动存储到事先设定好的输出数据。

源数据的读取

平台封装了源数据(即输入数据)的读取,并提供了可视化的操作来设置输入数据。

源数据的调度

平台读取到源数据之后,会对每一条数据进行回调,开发者在回调函数中对数据进行清洗,返回清洗后的数据即可。

输出数据的存储

平台封装了处理后的数据的存储,只要事先设置好输出数据即可。