本文为大家讲解自定义采集模式中,文件导入大批量网址、批量生成网址、关联任务导入网址的操作方法。

采集数据时,不少用户会碰到这样的情况:

  • 自有网址很多,手动输入很麻烦
  • 采集目标为大量可规律生成网址的网页
  • 列表页和详情页需要分开采集

     八爪鱼通过对自定义采集网址输入的升级和优化,有效解决了上述问题,主要是以下三个功能。

1、文件导入大量网址

 目前手动输入支持网址数量有限,如果网址数量比较多, 我们可以通过本地文件直接批量导入网址,保存,然后配置规则。

具体操作如下:

在自定义采集主界面,选择从“文件导入”,再选择已有的网址文件,就可以大批量导入

如下图,导入之后,可以预览前100条网址。

 

使用条件

1、支持cxv、xls、xlsx、txt文件格式

2、支持100w以内网址 ,超过的自动删除

 

2、批量生成网址

同个网站中需要同时采集多个页面时候,我们可以利用这个功能批量生成网址,这样可以节省大量翻页或重复搜索的时间,只要符合条件的网址,都可以通过设定好的逻辑自动生成,再利用云采集拆分原理采集任务,可以极大地提升采集效率。

 

怎么使用网址批量生成的功能呢?

 

同样在自定义模式入口界面,选择“批量生成”

 

我们以京东的网页为例:

https://search.jd.com/Search?keyword=iphone&page=3

这是京东iphone作为关键词的第三页网址, 我们可以根据这个格式替换关键词,生成多个产品的网址,

 

首先鼠标选中需要设置的关键词,然后再点击添加参数

 

点击以后,可以看到弹出的窗户口中有4种可以编辑变化的参数类型:

 

数字变化:可设置从某个数字开始,每次递增或递减X位,设置总个数,可设置补零

字母变化:某个字母到某个字母

时间变化:可设置时间段的变化

自定义列表:可放入所需的一些关键词,作为网址参数的一部分

 

自定义列表

因为此例设置的是关键词,所以参数类型选择“自定义列表”,在下方的框中填入需要采集的关键词参数,比如电脑、手机、鼠标,然后点击确定。

 

数字变化

同样,选中页码,点击添加参数,设置页码相关的参数。这里参数类型选择数字变化,然后观察页面网址的变化设置具体参数配置,如果我们需要从第1页开始采集,开始值就为1;变化相差1,每次动作递增就为1。假如需要采集11页,结束值就是11,项数就从第1页到11页,共有11项。

 

参数设置完成以后,可以预览生成的网址。如下图所示

 

在京东的这个例子中只需要设置这两个参数,下面我们来看一下另外两个

字母变化

 

同上,字母变化就根据变化规律从a设置到某一需要的字母

时间变化

 

如上图,选择合适的时间格式,然后设置开始和结束的时间。

 

注意:

可支持100W以内网址批量生成,超过100w仅生成100w。

批量生成的网址,前100条存储在本地,显示在界面上;>100条的网址存储在云端,不显示在界面上,本地采集或云采集的时候,直接调用存储在云端的网址采集数据。

如果复制此规则,复制后得到的规则仅包含前100条网址,仅采集前100条网址的数据。

 

3、关联任务导入网址

网址导入还有另外一种方式,可以选择其它任务采集到的网址直接导入,以进行关联采集。比如,一个任务同时采集列表页和详情页,这样就没有办法利用云采集拆分,如果利用关联采集功能,就可以将这个任务变成两个任务:A任务采集列表信息,B任务采集详情信息,两个任务都可以进行云拆分,采集效率就提升了很多(注意,如果采集网站列表页进入到详情页时网址没有发生变化,就不能使用这个方法)

具体操作如下:

在自定义模式入口选择“从任务导入

我们把被导入的任务称为“源任务”,导入网址后新配置的称为“跟随任务”

 

然后通过下拉箭头选择采集任务和字段,就可以把源任务采集到的网址完全导入。

注意:导入时必须保证源任务云端有数据。

 

规则配置完成以后,保存并启动采集时可以选择“跟随启动设置”

 

随即可从弹窗中选择4种不同的启动方式,来满足不同的采集场景,

源任务需要有一定数据量,跟随任务才能采集到数据,所以可以根据采集情况选择下面4种跟随任务启动方式。

 

也可以在任务列表里设置跟随启动

 

注意: 跟随任务是不能设置定时启动的,只能通过源任务触发启动。

 

启动采集时,如果选择“全量网址采集”,八爪鱼将会采集该任务所有已经导入的网址;如果选择“仅采集预览网址”,八爪鱼将采集该任务最多100条预览网址

 

温馨提醒:只有旗舰版(以上)套餐用户才支持关联任务导入。去升级旗舰版