在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。

 

【增量采集】通过对比URL来实现增量数据的采集:

将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。

 

一、功能说明

在任务配置页面,点击【采集配置】按钮,进入配置页面:

 

进入设置页面后,可以看到:

【启用增量采集】的选项。同时提供两种网址对比方式:

【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果是完整的网址,则跳过不采集。

【仅对比URL及以下参数】:对比URL中的特定参数,如果指定参数相同,则跳过不采集。

勾选【启用增量采集】后,默认使用【对比整个URL】,然后点击【保存配置】,即可对该任务启用增量采集。

 

特别说明:

a. 什么是网址参数?网页链接中&和=之间的为参数,下面有【tid】和【page】两个参数。

 

例如:

http://bbs.fblife.com/forum.php?&tid=14094703&page=1

http://bbs.fblife.com/forum.php?&tid=14094704&page=1

 

观察以上两个网址,有着不同的tid】 参数和相同的【页面】,

如果选择【对比整个URL,包含有所有参数】,则第二条网址会被采集。

如果选择【仅对比网址及以下参数】,对比【页面】参数,第那么条网址不会被采集。

 

二、注意事项

 

1、【增量采集】只能用于云采集,不能用于本地采集。

因采集是单次采集,每次停止后都从头开始采集,因此不能使用【增量采集】功能。

 

2、【增量采集】只能用于非AJAX的网页。

AJAX网页点击后,网址链接发生改变,无法通过对比URL实现原生采集。

 

3、网址有参数,才能使用【仅对比网址及以下参数】

 

例如:

以下规则是【循环-点击元素】类规则,每次点击后会跳转到新的页面。

 

观察发现,点击后页面链接是不带参数的,因此无法选择【仅对比网址及以下参数】这种方式。

 

 

换一个点击后页面链接带参数的网址,如下图所示有【spm】【id】【skuId】多个参数,这时候就可以根据参数设置增量采集了。

示例网址:https://detail.tmall.com/item.htm?spm=a221t.1710963.goodlist.10.48711135LWXP9U&id=657774926583&skuId=4920053579722 

所有参数设置增量:

 

 

4、【提取数据】步骤数限制

规则中只有一个【提取数据】一步一步实现【增量采集】。如果有两个或以上的【提取数据】,是不支持增量采集的。