采集场景

在孔夫子旧书网搜索页面:http://search.kongfz.com/product_result/,输入图书的关键词(含ISBN)搜索,搜索后得到图书列表,然后从列表点击图书链接进入详情页,采集详情页数据。

ISBN是专门为识别图书等文献而设计的国际编号,如果使用的是ISBN搜索,则搜索结果都是关于某本特定书籍的。

 

采集字段

作者、书名、售价、定价、库存、品相、出版时间等字段。

 

 

点击查看高清大图,下文其他图片同理  

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇制作时间:2022/6/9   八爪鱼版本:V8.5.2

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

 

步骤一、打开网页

步骤二、批量输入多个关键词并搜索

步骤三、建立【循环-点击元素】,进入每个商品的详情页

步骤四、设置【提取数据】,采集所需字段

步骤五、建立【翻页循环】,采集多页数据

步骤六、编辑字段

步骤七、设置滚动和执行前等待

步骤八、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址:http://search.kongfz.com/product_result/,点击【开始采集】,八爪鱼自动打开网页。

 

 

 

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

 

步骤二、批量输入多个关键词并搜索

 

打开网页后,通过以下几步,实现批量输入多个关键词。


 
1、输入1个关键词并搜索

选中搜索框,在操作提示框中,点击【输入文本】,输入关键词并保存。

选中【搜索】按钮,在操作提示框中,点击【点击该元素】,出现关键词的搜索结果。

 

 

2、批量输入多个关键词

① 在【打开网页】步骤后,添加一个【循环】。

② 将【输入文本】和【点击元素】都拖入【循环】中。

 

 

 

③ 进入【循环】设置页面。选择循环方式为【文本列表】,点击按钮,将我们准备好的关键字输进去(可同时输入多个关键字,一行一个即可)后保存。

④ 进入【输入文本】设置页面,删除原有的关键词,勾选【使用当前循环里的文本来填充输入框】后保存。

 

 

特别说明:

a. 示例中输入的关键词是【数据】、【采集】、【科学】、【科技】,可根据自身需求进行替换。

b. 一次最多输入2W个关键字。可先准备一个包含多个关键字的文档,然后将其复制粘贴进八爪鱼中。

 

步骤三、建立【循环-点击元素-提取数据】,采集每个商品的详情页信息

 

观察网页,此网页上是通过点击标题,进入详情页的,下面为具体步骤。

① 选中页面上第1个标题(因为只识别到了一个字,所以点击箭头,向上定位一层标签从而定位到完整的一个标题)

② 在黄色操作提示框中,选择【选中全部】

③ 在黄色操作提示框中,选择【循环点击每个链接】

随后自动进入第一本书籍的详情页。

 

 

特别说明:

a. 为什么通过以上3步,【循环-点击元素-提取数据】创建完成?点击查看 从列表进入详情页采集教程 。 

 

步骤四、设置【提取数据】,采集所需字段

 

进入详情页后,采集我们需要的字段。

如果是文本型的字段:鼠标选中所需字段,在黄色提示框中选择【采集该元素的文本】。

示例中采集的都是文本型的字段。

 

 

步骤五、建立【翻页循环】,采集多页数据

 

如果只是采集一页数据,可跳过此步骤。

如果需要翻页以采集多页数据:

 

① 点击流程中的【循环列表】,回到商品列表页面

② 找到网站下边的翻页按钮,选中【下一页】按钮,在黄色操作提示框中,选择【循环点击下一页】

③ 点击【循环翻页】,设置执行前等待时间位2秒,点击【点击翻页1】,设置Ajax超时时间,5-10秒都是可以的

经过以上操作,【循环翻页】创建完成。

 

 

特别说明:

a. 创建【循环翻页】后,八爪鱼会自动点击翻页按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看 翻页以采集多页数据教程 

 

步骤六、编辑字段

 

1、修改字段名称

进入【提取数据】设置页面,编辑字段名称。

 

 

2、修改字段XPath

为了精准采集到每本书籍详情页的字段,我们需要手动修改一下各个字段的XPath。

进入【提取数据】设置页面,找到目标字段,修改其XPath。

 

示例中修改的是【品相】这个字段的XPath和备用XPath:

品相XPath://I[@class="quality-desc-new"]

备用XPath://p[@class="quality clearfix"]//following::i[1][@class="quality-desc-common"]

 

特别说明:

a. 如何修改XPath?这需要一定的XPath知识。点击查看 XPath学习与实例教程

 

 

实际上,详情页的每个字段的XPath都需要修改,请大家选择自己需要的字段,按需进行修改。

 

【作者】XPath://span[contains(text(),'作者')]//following-sibling::span

备用XPath ://span[contains(text(),'作者')]|//li[contains(text(),'作者')]/a

 

【出版】 XPath://span[contains(text(),'出版社')]//following-sibling::span

备用XPath://li[contains(text(),'出版社')]/span

 

【装帧】XPath //span[contains(text(),'装帧')]//following-sibling::span

备用XPath //li[contains(text(),'装帧')]/span

 

【出版时间】XPath ://span[contains(text(),'出版时间')]//following-sibling::span

备用XPath://li[contains(text(),'出版时间')]/span

 

【开本】XPath://span[contains(text(),'开本')]//following-sibling::span

备用XPath ://li[contains(text(),'开本')]/span

 

【ISBN】XPath://span[contains(text(),'ISBN')]//following-sibling::span

备用XPath://li[contains(text(),'ISBN')]/span

 

【版次】 XPath://span[contains(text(),'版次')]//following-sibling::span

备用XPath://li[contains(text(),'版次')]/span

 

【纸张】XPath://span[contains(text(),'纸张')]//following-sibling::span

备用XPath ://li[contains(text(),'纸张')]/span

 

【页数】XPath ://span[contains(text(),'页数')]//following-sibling::span

备用XPath ://li[contains(text(),'页数')]/span

 

特别说明:

a. 如何修改XPath?这需要一定的XPath知识。点击查看 XPath学习与实例教程

 

 

步骤八、设置滚动和执行前等待

 

1、设置滚动

一些网页打开后,需要向下滚动才能加载出更多数据,因此八爪鱼中也应该设置滚动:

进入【点击元素】设置页面,勾选滚动方式为【向下滚动一屏】,【滚动次数】10次、【每次间隔】1秒。

 

2、设置【执行前等待】

【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。

进入【列表循环】设置页面,设置【执行前等待】设置为2s。

 

 

步骤八、启动采集

 

1、单击【保存】,再点击【采集】并点击本地采集的【普通模式】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

 

 

 

作者:勾勾

编辑:勾勾