一,功能简介

八爪鱼新上线json采集功能,通过打开json网址,配置流程,即可进行json数据采集。

json是一种轻量的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。

Json采集的优点:

1、无需加载图片视频等信息,采集速度更快

2、部分网站防采集限制减少,采集更加顺畅

 

二,适用版本

V7.5.10及以上版本

 

三,操作步骤

百度地图为示例网址进行操作。

 

JSON网址可通过抓包工具来获取(如Fiddler),不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取。

 

1、获取JSON网址

 

1.1安装firebug插件后,在火狐浏览器打开百度地图网站,输入关键词搜索后,按F12或右键选择“使用firebug查看元素”,弹出firebug调试器。点击“网络”,点击“XHR”,可以看见很多url。JSON网址一般在XHR下面,但如果XHR查找不到,则点击“全部”。

 1.2 点开每个url,查看是否有“JSON对象视图”,有的话则为JSON网址。并不是每个JSON网址都是我们需要的, 因此还要再点击“JSON对象视图”,查看里面的参数,看是否有目标数据,有目标数据的JSON网址,才是我们要找的url。

如图,前面的十一个JSON网址都不含有目标数据,第十二个JSON网址里含有目标数据,它就是我们需要的JSON网址。成功找到url后,右键“复制地址”。

 

 

2、八爪鱼配置流程

 

2.1 将JSON网址输入到网址框,在网址右侧勾选「JSON采集」。

(JSON页面增加了请求参数项,可将JSON网站理解为api接口,要填写的参数也类似于接口中的参数。多数网站无需填写。)

此时浏览器页面展示出树状视图,即JSON数据。

 

   

   

如下图所示,示例网站中的数据在content标签里,content[50]表示有50条数据。


点开标签,可看到50个数据项节点,每一个数据项节点里面都是全部数据字段。如下图,点开第1个数据节点,查看数据字段,我们需要从中选择需要的字段进行提取。



 

2.2 做JSON数据循环时,只需在众多个数据项节点中,提取第1个节点里面的数据字段,就可以自动循环,提取全部节点里面的字段。

如图,在第1个节点内,分别点击需要采集的字段,点击完成后选择[采集数据],循环采集步骤就做好了。规则配置完成,点击保存。

 

2.3 开始本地采集,数据以极快的速度采集下来了。

 

 

 

注意事项

1、Json网址的翻页一般需要设置,需要自己研究网址的翻页规律,进行url循环采集。

2、JSON目标定位利用jsonpath参数,详情可查看以下资料

jsonpath介绍:https://www.cnblogs.com/aoyihuashao/p/8665873.html

jsonpath在线测试网页:http://jsonpath.com/