搜档网
当前位置:搜档网 › 如何实现新浪微博博主微博信息采集与监控

如何实现新浪微博博主微博信息采集与监控

如何实现新浪微博博主微博信息采集与监控
如何实现新浪微博博主微博信息采集与监控

新浪微博博主微博信息采集与监控

随着大数据和社交网络的火爆发展,社交网络上产生的数据也越来越有价值,特别是微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大,但是在采集过程中,很多朋友也因为新浪的防采集很是头痛,笔者通过多方比较尝试,笔者最终顺利完成了整个数据采集过程,要采集的数据为指定城市的所有微博用户的相关信息。比如微博内容、微博评论数、微博转发数等等,进入正题,看看具体一步一步怎么操作来实现的。

此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。

如果有兴趣的看官们,可以百度熊猫采集软件下载即可,熊猫的免费版就已经包含我下面演示所以功能。

好了,下面进入我们的采集微博环节吧!

首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)

这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集新浪微博的信息,我就去了一个新浪采集的名称。

进入到标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。在这里,其实我们见到的每一个博主发的微博就是我们要的标题列表页面,但是我们不能将上面的网址拷贝到熊猫中,因为真正的内容是js加载进来的,我们需要通过第三方软件,也就是抓包工具,找到我们要采集的这些数据真实存在的地方(目前大部分浏览器是自带抓包的,不是很明白看客可以百度查看一下抓包的说明)。

这里我就利用浏览器抓包来获取我们要采集的部分数据了:右击浏览器空白地方会有一个审查元素。点击进入,如图:

然后我们刷新一下这个内容页面,也就是我们的模板页面,会发现出现很多网址,这时候我们要采集的东西就可以在这些网址里面进行查找;

在新浪上面,我们通过抓包找到真实页面的网址是下面我们看到的网址

当然,这样的网址后面有太多参数,看起来很不舒服,有些参数对我们来说是没有作用的,所以我们可以适当的去删除一些没有作用的参数,下面是我简化过后的网址

因为这个网址是特殊的网页,里面的内容都被进行了编码,所以我们在配置项目的时候到熊猫软件的高级项目设置里面勾选上一个功能即可处理,就可以将这些编码还原成正常文字。

点击确认出来即可,将我们刚刚抓包抓到的网址放入到熊猫中,

点击开始运行分析:

这个提示框的意思是,如果我们需要采集多页,也就是翻页采集,那么我们选择是即可(注意,选择是的时候再极少情况下可能将我们的翻页设置设置的并不准确,这个时候我们就选择否,然后自行进行翻页设置),如果不需要,则选择否即可,这个可以根据我们的需要进行设置。这里面的翻页设置很特殊,由于这里的信息我们是用来监控用的,所以没必要采集后面一些比较旧的信息,暂且就不在这里做分页了。所以选择否,这个时候,我们突然发现分析什么都没分析出来,原因是因为新浪的访问需要带上cookie去访问,我们去做一个模拟登录就可以了。如图:

放入到熊猫模拟登录

再次去运行我们这个网址,发现出来内容了,如下图

这个时候出现了’\’、’ \n’、’\/’等一些转义字符,这个时候我们就需要将源码进行一个修缮了,将这些东西都恢复到一个我们看起来很正常的状态

下面附上我的详细修缮图,

做完这些工作,我们再去分析,发现已经没有任何问题了,如下图

这个时候再点击下一步设置,进入到选择内容页的设置,因为我们要进去采集的每一个博主每发的一个博客,我们都是通过点击时间才能进去看,也就是所我们在选择内容页的地方应该将时间框选起来,如下图

再选中下面的需要同时采集改链接所斜内容,

这里我们要采集的内容页链接都被正确的包含起来,那么我们就直接下一步,进入到内容页面模板管理,这里系统默认会把我们在上一步选中的链接作为模板,在这里,我们也可以自己选择一个链接作为模板,只要把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板即可,但是这里我们就不要自己去找模板了,直接使用上一级传过来的就可以了。如下图:

进入之后,我们就能里面看见刚刚父页面的内容了,有正文内容,有转发有评论,这个时候我们就可以将我们需要的内容框选住,采集下来即可

这样,我们的博主微博的采集就全部设置完毕,我们点击出来运行一下我们的项目,这里你可以采集的是任何一个博主,不必非和我这个一样。

可以看出,我们的信息已经全部爬下来了。这样,我们整个教程也就结束了,有兴趣的看官们也可以自己试试,我这里以后也会持续更新更多的采集案例。

教程注意:1.因为采集的新浪网站,所以速度不宜太快,不然会容易封号,我们也可以多准备几个账号,然后换下cookie即可继续采集

2.如果我们需要监控多个博主,我们首先要字段博主的id ,也就是我们网址id后面的那些数字,最后利用熊猫的翻页方式2里面的方法2进行多个博主的监控,如下图

这样就实现了对多个博主博客的监控了。

相关主题