当前位置：主页 > 查看内容

一篇文章教会你使用Python定时抓取微博评论

发布时间：2021-09-11 00:00| 有位朋友查看

简介：【Part1理论篇】试想一个问题，如果我们要抓取某个微博大V微博的评论数据，应该怎么实现呢?最简单的做法就是找到微博评论数据接口，然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口，如下图所示。但是很不幸，该接口频率受限，抓……

【Part1——理论篇】

试想一个问题，如果我们要抓取某个微博大V微博的评论数据，应该怎么实现呢?最简单的做法就是找到微博评论数据接口，然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口，如下图所示。

但是很不幸，该接口频率受限，抓不了几次就被禁了，还没有开始起飞，就凉凉了。

接下来小编又选择微博的移动端网站，先登录，然后找到我们想要抓取评论的微博，打开浏览器自带流量分析工具，一直下拉评论，找到评论数据接口，如下图所示。

之后点击“参数”选项卡，可以看到参数为下图所示的内容：

可以看到总共有4个参数，其中第1、2个参数为该条微博的id，就像人的身份证号一样，这个相当于该条微博的“身份证号”，max_id是变换页码的参数，每次都要变化，下次的max_id参数值在本次请求的返回数据中。

【Part2——实战篇】

有了上文的基础之后，下面我们开始撸代码，使用Python进行实现。

1、首先区分url，第一次不需要max_id,第二次需要用第一次返回的max_id。

2、请求的时候需要带上cookie数据，微博cookie的有效期比较长，足够抓一条微博的评论数据了，cookie数据可以从浏览器分析工具中找到。

3、然后将返回数据转换成json格式，取出评论内容、评论者昵称和评论时间等数据，输出结果如下图所示。

4、为了保存评论内容，我们要将评论中的表情去掉，使用正则表达式进行处理，如下图所示。

5、之后接着把内容保存到txt文件中，使用简单的open函数进行实现，如下图所示。

6、重点来了，通过此接口最多只能返回16页的数据(每页20条)，网上也有说返回50页的，但是接口不同、返回的数据条数也不同，所以我加了个for循环，一步到位，遍历还是很给力的，如下图所示。

7、这里把函数命名为job。为了能够一直取出最新的数据，我们可以用schedule给程序加个定时功能，每隔10分钟或者半个小时抓1次，如下图所示。

8、对获取到的数据，做去重处理，如下图所示。如果评论已经在里边的话，就直接pass掉，如果没有的话，继续追加即可。

这项工作到此就基本完成了。

【Part3——总结篇】

这种方法虽然抓不全数据，但在这种微博的限制条件下，也是一种比较有效的方法。

本文转载自微信公众号「 IT共享者」，可以通过以下二维码关注。转载本文请联系 IT共享者公众号。

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/Rs_4KqvxCczUHXNHJlPMBA
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Mybatis 中xml和注解映射，so easy啦 下一篇：没有了

推荐图文

周排行
月排行
总排行

1 路贸：业务系统迁移至阿里云Kubernetes

2 使用实例创建自定义镜像 - 云服务器 ECS

3 C++多线程编程之多线程数据共享问题

4 专有网络的IP - 云服务器 ECS

5 【活动报名】2021蚂蚁链开发者大会

6 计算型 - 云服务器 ECS

7 地产软件终端以42万元竞拍品牌域名RedX.c

8 浅析池化对象 RecyclableMemoryStream 在

9 SLS开放告警简介

10 RDS审计日志采集方案升级--RDS审计中心发

随机推荐

自己怎么备案域名解析

自己怎么备案域名解析？如果域名域名完成了实名认证且做好了域名备案，那么...
云服务器公网ip什么用

云服务器公网ip什么用？公网IP主要用于使用公网的用户访问你的服务器。如果使用...
C语言可变参数的原理和应用

本文转载自微信公众号「编程学习基地」，作者deroy 。转载本文请联系编程学习基...
云计算快速入门指南

本文简单介绍了云计算的概念、架构、部署及市场等多方面的内容：云计算是什么? ...
MySQL生僻字改造项目排坑大法

1.背景中信银行的某个大佬在一个会议中提及中信银行将成为中国第一个在技术上支...
声网发布极速直播、低码高清首创轻互动

12月10日，实时互动云服务开创者及引领者声网Agora在北京发布了首款定义轻互动直...
中国信通院陆洋：5G融合应用发展面临的挑

以下文章来源于信息通信技术与政策，作者陆洋 1 引言 5G作为新一代信息通信技术...
边缘计算、工业4.0及智慧城市的未来

边缘计算被许多行业专家和分析家视为实现技术融合的关键，如今正处于转折点。根...
节点缓存VS浏览器缓存

背景： CDN节点缓存策略：可根据实际业务场景设置合理的缓存策略，比如遵循源站...
Search template 模板搜索

创作人：骆潇龙 Elasticsearch 允许使用模板语言 mustache 来预设搜索逻辑，在实...