采集场景

采集某个微博博主主页的博文数据,实例地址https://weibo.com/u/3261134763 
https://weibo.com/2656274875?refer_flag=1001030103_

 

 

 

 

采集字段

粉丝数、关注数、全部微博数、发布时间、博文内容、分享数、评论数、点赞数

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。

 

教程说明

本篇更新时间:2023/03/28 八爪鱼版本:V8.6

如因网页改版导致网址或步骤无效,无法收集到目标数据,请联系官方客服,我们会及时处理。

 

 

采集步骤

步骤一:创建循环网页

步骤二、设置cookie登录

步骤三、提取微博字段

步骤四、创建【循环列表】,提取博文列表数据

步骤五、创建循环滚动

步骤六、启动采集

 

 

 

下面为具体步骤:

 

步骤一、创建循环网页

 

在首页选择【新建】,然后点击【自定义任务】-输入所需采集的网址后点击【保存设置】

 

 

 

 

步骤二、设置cookie登录

 

点击右上角的【浏览模式】后

1、点击立即登录。

2、根据提示用手机app端扫码登录

3、关闭浏览模式设置cookie登录

 

 

 

 

 

步骤三、提取微博字段

 

选中网页中的目标字段,在操作提示点击【采集该元素的文本】,依次设置获取所需的博主字段数据。

 

 

 

 

步骤四、创建【循环列表】,提取博文列表数据

 

1.创建循环列表提取博文列表数据

1)选中一整个博文列表

2)再选中另一个博文列表

3)选中全部相似组

4)获取元素中的数据内容

 

 

2.编辑字段

删除不需要的字段、修改字段名

 

 

3.修改xpath

 

修改字段的xpath

发布时间://div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a

博文链接://div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a

博文正文://div[@class="wbpro-feed-content"]/div[1]

 

 

 

 

步骤五、创建循环滚动

 

因为微博博主网页结构的原因:网页需要往下滚动,同时不管滚动多少次都只能定位几条数据。所以这里需要设置边滚动边采集,同时勾选上【滚动时循环列表不自动去重】。

微博特殊网页结构问题会导致采集会有大量重复数据,这个属于正常现象,采集完成后,可以选择导出去重后的数据。

 

1.添加循环框,选择循环的方式为循环滚动;

2.设置滚动方式-向下滚动一屏;

3.勾选上【滚动时循环列表不自动去重】;

4.把【循环列表-提取列表数据】整个拖拽放到【循环】里面进行内嵌套,如动图所示。

 

 

 

 步骤六、启动采集

 

点击【保存】-【采集】,选择本地采集或者云采集,等待采集完成。