八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,能够进行JSON采集。

 

一、JSON是什么

JSON是一种轻量的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。

 

二、JSON采集的优点

1、无需加载图片视频等信息,采集速度更快

2、部分网站防采集限制减少,采集更加顺畅

 

 

三、JSON采集实例

 

示例网址:https://b2b.baidu.com/

需求:采集关键词为机械设备的信息地址,包括:公司名/链接/注册/产品/期限/注册资本

 

步骤操作:

 

步骤一、通过火狐浏览器获取JSON网址

JSON网址可以通过抓包工具来获取(如Fiddler),不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取,或者在Chrome浏览器中,直接按F12把网页请求给调取出来。

 

第1步:

安装firebug插件后,在火狐打开,选择厂家,输入搜索后,按F12或下一个选择【使用查看元素】,在浏览器中浏览点击firebug调试器然后点击【网络】按钮,刷新下网页,让网页重新加载,此时可以看到这里有很多网址。JSON网址就在下面。

我们可以先点击【XHR】查看,JSON网址一般在XHR下面,如果在XHR中查找不到,则在【全部】中查找。

 

 

第2步:

点开每个url,查看是否有“JSON对象视图”,有的话则为JSON网址。

并不是每个JSON网址都是我们需要的, 因此还要再点击“JSON对象视图”,查看里面的参数,看是否有目标数据,有目标数据的JSON网址,才是我们要找的url。

如图,前面的JSON网址都不含有目标数据,后面JSON网址里才找到含有目标数据,它就是我们需要的JSON网址。成功找到url后,右键“复制地址”。

 

 

第3步:

上面获取到只是当前页的JSON,JSON网址的页面一般需要研究目标网站的翻页规律,才能进行url循环采集。

在这个网页调试器中,我们点击【清除】,先清空网址,然后点击网页上的翻页按钮,进行翻页。用前2步的方法获取到第二页的JSON,同理找第三页的JSON链接。然后见这三个JSON链接放在Excel表格,观察其链接参数和格式,就可以从中找出翻页规律了

该网站的翻页规律为每一页的参数中“p=n”的增加,第一页为1,第二页为2,第3页为3…… 所以可根据此规律批量生成多个页面的JSON网址。

 

 

步骤二、在八爪鱼中配置流程

 

第1步:

使用八爪鱼采集的批量生成网址功能,生成多个JSON页面。

如下图新建自定义任务,选择【批量生成】,输入一条网址后,选择p=后面的数字3,添加参数。根据网页总页码数设置结束值(此处以10为例)。

打开网页后,在打开网页的高级设置中勾选「JSON」。

(JSON页面增加了请求参数项,可将JSON网站理解为api接口,要填写的参数也类似于接口中的参数。多数网站无需填写。)

当前浏览器页面展示出树状视图,即JSON数据。

 

 

 

第2步:

如下图所示,示例网站中的数据数据—entList标签里,entList [15]表示有15条数据。

点开列表项标签,​​再点开第1条数据,可以查看到里面的数据字段,我们需要从中选择需要的字段进行提取

 

 

 

第3步:

做JSON数据循环时,只需在众多个数据项节点中,提取第1个节点里面的数据字段,就可以自动循环,提取全部节点里面的字段。

如图,在第1个节点内,分别点击需要采集的字段,点击完成后选择[采集数据],循环采集步骤就做好了。

规则配置完成,点击保存。

 

 

第4步:

点启动,开始本地采集,数据就以极快的速度采集下来了。

 

 

 

注意事项:

JSON利用JSON路径,详情可查看以下资料

Jsonpath介绍:https://www.cnblogs.com/aoyihuashao/p/8665873.html

Jsonpath在线测试网页:http://JSONpath.com/