在数据采集过程中,我们可能有这样的需求:第一次采集所有数据,后续再采集的时候只需要采集网页上新增的数据。

自动采集新增数据的需求,可以通过八爪鱼的定时云采集配合多种策略实现,以下将结合实例详细讲解。

注意:定时云采集是八爪鱼采集器团队版及以上版本才具有的功能(旧套餐旗舰版及以上版本),详情请看 版本介绍 

 

实例网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html

采集需求:定时采集广东省政府采购网列表中新增的公告标题、标题链接和发布时间字段。

 

方法一:触发器 + 定时云采集

 

触发器:支持对【时间】字段设置条件,满足条件才触发采集,例如设置:【发布时间】早于【当天0点的前一天】就丢弃本条数据,就能实现 采集前一天更新的数据

定时云采集:支持设置整点的定时采集,例如设置:每天0点定时启动采集

以上两者结合,就能实现 每天0点定时采集前一天更新的数据 

 

触发器具体设置:

设置提取列表页的公告标题、标题链接和时间这个几个字段。

点击【提取数据】-【高级设置】进入设置页面,点击【+ 新增触发】,设置【发布时间】早于【自定义】,点击,进入编辑时间配置页面,选择【当天采集0点】减少【1天】,得到以当前时间作为示例:2021-10-18 00:00:00,点击【确定】就执行操作【丢弃本条数据】,点击【确定】。具体的操作可以参考触发器功能说明的教程。

 

 

注:

a. 触发器的时间默认格式为xxxx-xx-xx hh:mm:ss,如果不是的话需要用格式化将【发布时间】统一格式化成默认格式2020-11-24 00:00:00,具体可参考 字段格式化的教程 

像示例网址中的【发布时间】为:2020-11-24 17:45,则需要【添加后缀】:00,最后得到【替换结果】为:2020-11-24 17:45:00。

 

定时云采集具体设置:

保存上述设置后的任务,在我的任务里找到目标任务,点击【更多操作】的…按钮,选择【云采集】-【设置定时】,会弹出一个【定时云采集】设置的弹窗。

【定时方式】选中【选择星期】,【选择星期】中选中【全选】,启动时间选中0:00,点击【保存并启动】。

 

 

注:

a. 以上定时设置只是一个示例,定时云采集还支持【只采集一次】【选择星期】【每月采集】【间隔时间采集】等多种定时方式,大家可根据需求进行调整,具体请查看 定时云采集教程 

 

2、控制循环的次数 + 定时云采集

控制循环次数:一般新更新的数据会出现在前几页,观察目标网站每日大概会新增多少页的数据,设置相应的翻页次数。例如每日新增的数据不超过2页,则可以设置翻页循环执行的次数为2次

定时云采集:支持设置整点的定时采集,例如设置:每天12点定时启动采集

以上两者结合,就能实现  每天12点定时采集前2页的数据

 

设置循环翻页的次数的具体操作:

点击【循环翻页】步骤,在下方【基础设置】中【满足以下条件时退出循环】勾选【循环执行次数等于】并填2,点击【应用】。

 

 

设置定时云采集的具体操作:

上面已经讲过,不再赘述。

 

3、定时采集+字段去重(按字段去重)

 

字段去重:八爪鱼云采集数据支持按字段去重。例如设置按【发布时间】字段对比去重,则新采集的数据如果【发布时间】与之前采集的和数据一样,将自动将其删去

定时云采集:支持设置整点的定时采集,例如设置:每天12点定时启动采集

以上两者集合,就能实现 每天12点定时启动采集并按【发布时间】自动对比去重 

 

按字段去重功能目前需要联系客服进行开通,具体操作请参考 系统如何去除重复数据教程 

 

4、增量采集

 

增量采集:通过对比URL,实现新增数据的采集,具体请参考:增量采集的教程