采集场景

在维基百科网页面 https://zh.wikipedia.org/wiki循环输入多个关键词,采集搜索后展示的多个名词解释的详细数据。

 

 

 

采集字段

岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段。

 

采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

 

 

教程说明

本篇制作时间:2022/2/28    八爪鱼版本:V8.5.1.21611

 

采集步骤 

步骤一、打开网页

步骤二、批量输入多个关键词并搜索

步骤三、提取检索后的百科数据

步骤四、编辑字段 清洗数据

步骤五、启动采集 导出数据

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址  https://zh.wikipedia.org/wiki ,点击【开始采集】,八爪鱼自动打开网页。

 

 

 

 

步骤二、批量输入多个关键词并搜索

 

打开网页后,通过以下几步,实现批量输入多个关键词。

1、输入1个关键词并搜索

2、批量输入多个关键词

 

1、输入1个关键词并搜索

选中维基百科搜索框,在操作提示框中,点击【输入文本】,输入关键词并确定保存。

 

 

选中【搜索】按钮,在操作提示框中,点击【点击该按钮】,出现关键词的搜索结果。

 

 

八爪鱼自动识别了Ajax点击并设置了超时1秒,为保证数据加载充分,修改Ajax超时为5秒。

 

 

2、批量输入多个关键词

 

① 在【打开网页】步骤后,添加一个【循环】。

 

 

② 将【输入文本】和【点击元素】都拖入【循环】中。调整完毕如下图。

 

 

 

③ 进入【循环】设置页面。选择循环方式为【文本列表】

 

再点击编辑按钮,将我们准备好的关键字输进去(可同时输入多个关键字,一行一个即可)后保存。

 

 

④ 进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】后保存。

 

 

步骤三、提取检索后的百科数据

 

依次点击步骤中的【循环】、【输入文本】和【点击元素】,页面展示检索结果。

选中页面中标题,操作提示框中选择【采集该元素的文本】。同理,依次提取 岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段字段。

 

 

步骤四、定位字段 清洗数据

 

在【当前页面数据预览】页面,可删除多余字段,修改字段名,移动字段顺序,格式化字段等。 这里切换为纵向布局方便修改。

 

在【当前页面数据预览】页面,双击【字段名】一栏直接修改字段名称。

 

 

② 在【当前页面数据预览】页面,点击【岛屿】字段的更多,选择【格式化数据】处理。

 

 

添加一个【替换】步骤,将”[编辑]“替换为”“。(”“即空着不填)

 

 

在【当前页面数据预览】页面,双击【字段设置】一栏直接修改字段XPath。

 

注:配置流程时,八爪鱼会为每一个步骤生成一个XPath,一般情况无需修改。但当页面结构发生变化时,可能会出现错位、定位不到等问题,因此需要手动进行修改。本例中字段和对应的XPath如下图所示:

 

 

步骤五、启动采集 导出数据

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

2、采集完成后,可以导出为多种格式,这里选择Excel格式。

 

 

3、等待导出完成,点击【打开文件】即可查看Excel文件。

 

 

Excel样例数据: