返回上一级

网页采集实操

电商

【京东】商品列表采集

【京东】商品评价采集

【京东】商品详情页采集

【京东】商品list列表采集

【京东】采集场景汇总

【淘宝】商品列表页采集

【Amazon】商品评论采集

【Amazon】商品列表页采集

【Amazon】商品详情页采集

【速卖通】 AliExpress(速卖通)关键词搜索结果采集

【百度爱采购】关键词搜索厂家

【速卖通】AliExpress(速卖通)商品评价

社交媒体

【微博】热搜榜采集

【微博】评论采集（只采一级评论）

【微博】搜索关键词采集

【搜狗微信】文章列表和详情页正文采集

【搜狗微信】特定微信公众号的最新文章采集

【知乎】问题和回答采集

【哔哩哔哩】视频采集

【B站】UP主主页视频采集

【B站】视频详情页数据采集

【B站】按类目标签采集视频

【豆瓣】热门电影采集

【豆瓣】图书评论采集

新闻资讯

【今日头条】头条号文章采集

【今日头条】首页新闻采集

生活服务

【孔夫子】旧书网类目下图书列表页采集

【孔夫子】旧书网关键词搜索书籍采集

【百度】搜索结果采集

【百度图片】采集与导出

【百度地图】列表采集

【58同城】职位信息采集

中国天气网数据采集

【天眼查】企业信息采集

【携程】景点评价采集

【携程】游记攻略采集

【智联招聘】智联招聘职位数据采集

金融

百度爱采购关键词搜索商品

【东方财富】定向增发股数据采集

【同花顺】基金净值数据采集

【银保监】官网政策公告采集

【雪球】热帖评论采集

【股吧】股票评论采集

房产

【百姓网】短租房源数据采集

【游天下】房源数据采集

【58同城】民宿短租数据采集

【黄河口信息港】房源数据采集

【房天下】二手房数据采集

【孔夫子】旧书网关键词搜索书籍采集

2022-06-09 3212

采集场景

在孔夫子旧书网搜索页面：http://search.kongfz.com/product_result/，输入图书的关键词(含ISBN)搜索，搜索后得到图书列表，然后从列表点击图书链接进入详情页，采集详情页数据。

ISBN是专门为识别图书等文献而设计的国际编号，如果使用的是ISBN搜索，则搜索结果都是关于某本特定书籍的。

采集字段

作者、书名、售价、定价、库存、品相、出版时间等字段。

点击查看高清大图，下文其他图片同理

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇制作时间：2022/6/9 八爪鱼版本：V8.5.2

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一、打开网页

步骤二、批量输入多个关键词并搜索

步骤三、建立【循环-点击元素】，进入每个商品的详情页

步骤四、设置【提取数据】，采集所需字段

步骤五、建立【翻页循环】，采集多页数据

步骤六、编辑字段

步骤七、设置滚动和执行前等待

步骤八、启动采集

以下为具体步骤：

步骤一、打开网页

在首页【输入框】中输入目标网址：http://search.kongfz.com/product_result/，点击【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

步骤二、批量输入多个关键词并搜索

打开网页后，通过以下几步，实现批量输入多个关键词。

1、输入1个关键词并搜索

选中搜索框，在操作提示框中，点击【输入文本】，输入关键词并保存。

选中【搜索】按钮，在操作提示框中，点击【点击该元素】，出现关键词的搜索结果。

2、批量输入多个关键词

① 在【打开网页】步骤后，添加一个【循环】。

② 将【输入文本】和【点击元素】都拖入【循环】中。

③ 进入【循环】设置页面。选择循环方式为【文本列表】，点击按钮，将我们准备好的关键字输进去（可同时输入多个关键字，一行一个即可）后保存。

④ 进入【输入文本】设置页面，删除原有的关键词，勾选【使用当前循环里的文本来填充输入框】后保存。

特别说明：

a. 示例中输入的关键词是【数据】、【采集】、【科学】、【科技】，可根据自身需求进行替换。

b. 一次最多输入2W个关键字。可先准备一个包含多个关键字的文档，然后将其复制粘贴进八爪鱼中。

步骤三、建立【循环-点击元素-提取数据】，采集每个商品的详情页信息

观察网页，此网页上是通过点击标题，进入详情页的，下面为具体步骤。

① 选中页面上第1个标题（因为只识别到了一个字，所以点击箭头，向上定位一层标签从而定位到完整的一个标题）

② 在黄色操作提示框中，选择【选中全部】

③ 在黄色操作提示框中，选择【循环点击每个链接】

随后自动进入第一本书籍的详情页。

特别说明：

a. 为什么通过以上3步，【循环-点击元素-提取数据】创建完成？点击查看从列表进入详情页采集教程。

步骤四、设置【提取数据】，采集所需字段

进入详情页后，采集我们需要的字段。

如果是文本型的字段：鼠标选中所需字段，在黄色提示框中选择【采集该元素的文本】。

示例中采集的都是文本型的字段。

步骤五、建立【翻页循环】，采集多页数据

如果只是采集一页数据，可跳过此步骤。

如果需要翻页以采集多页数据：

① 点击流程中的【循环列表】，回到商品列表页面

② 找到网站下边的翻页按钮，选中【下一页】按钮，在黄色操作提示框中，选择【循环点击下一页】

③ 点击【循环翻页】，设置执行前等待时间位2秒，点击【点击翻页1】，设置Ajax超时时间，5-10秒都是可以的

经过以上操作，【循环翻页】创建完成。

特别说明：

a. 创建【循环翻页】后，八爪鱼会自动点击翻页按钮进行翻页，从第1页，第2页......直到最后1页。如果只需采集特定页的数据，可在八爪鱼中设置循环翻页的次数，详情点击查看翻页以采集多页数据教程。

步骤六、编辑字段

1、修改字段名称

进入【提取数据】设置页面，编辑字段名称。

2、修改字段XPath

为了精准采集到每本书籍详情页的字段，我们需要手动修改一下各个字段的XPath。

进入【提取数据】设置页面，找到目标字段，修改其XPath。

示例中修改的是【品相】这个字段的XPath和备用XPath：

品相XPath：//I[@class="quality-desc-new"]

备用XPath：//p[@class="quality clearfix"]//following::i[1][@class="quality-desc-common"]

特别说明：

a. 如何修改XPath？这需要一定的XPath知识。点击查看 XPath学习与实例教程

实际上，详情页的每个字段的XPath都需要修改，请大家选择自己需要的字段，按需进行修改。

【作者】XPath：//span[contains(text(),'作者')]//following-sibling::span

备用XPath ：//span[contains(text(),'作者')]|//li[contains(text(),'作者')]/a

【出版】 XPath：//span[contains(text(),'出版社')]//following-sibling::span

备用XPath：//li[contains(text(),'出版社')]/span

【装帧】XPath //span[contains(text(),'装帧')]//following-sibling::span

备用XPath //li[contains(text(),'装帧')]/span

【出版时间】XPath ：//span[contains(text(),'出版时间')]//following-sibling::span

备用XPath：//li[contains(text(),'出版时间')]/span

【开本】XPath：//span[contains(text(),'开本')]//following-sibling::span

备用XPath ：//li[contains(text(),'开本')]/span

【ISBN】XPath：//span[contains(text(),'ISBN')]//following-sibling::span

备用XPath：//li[contains(text(),'ISBN')]/span

【版次】 XPath：//span[contains(text(),'版次')]//following-sibling::span

备用XPath：//li[contains(text(),'版次')]/span

【纸张】XPath：//span[contains(text(),'纸张')]//following-sibling::span

备用XPath ：//li[contains(text(),'纸张')]/span

【页数】XPath ：//span[contains(text(),'页数')]//following-sibling::span

备用XPath ：//li[contains(text(),'页数')]/span

特别说明：

a. 如何修改XPath？这需要一定的XPath知识。点击查看 XPath学习与实例教程

步骤八、设置滚动和执行前等待

1、设置滚动

一些网页打开后，需要向下滚动才能加载出更多数据，因此八爪鱼中也应该设置滚动：

进入【点击元素】设置页面，勾选滚动方式为【向下滚动一屏】，【滚动次数】10次、【每次间隔】1秒。

2、设置【执行前等待】

【执行前等待】的意思是，在执行此步骤前，先等待一段时间（等待的时长由自己根据需求设置）作用是等网页上要采集的数据完全加载出来以后，再执行此步骤。

进入【列表循环】设置页面，设置【执行前等待】设置为2s。

步骤八、启动采集

1、单击【保存】，再点击【采集】并点击本地采集的【普通模式】。启动后八爪鱼开始自动采集数据。

特别说明：

a. 【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看本地采集与云采集详解。

2、采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例：

作者：勾勾

编辑：勾勾

电商

社交媒体

新闻资讯

生活服务

金融

房产

【孔夫子】旧书网关键词搜索书籍采集

服务提示

咨询顾问

申请试用

选择版本

填写信息

服务提示