前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >C# 学习之路--百度网盘爬虫设计与实现(一)

C# 学习之路--百度网盘爬虫设计与实现(一)

作者头像
若羽
发布2019-07-13 13:32:08
9710
发布2019-07-13 13:32:08
举报
文章被收录于专栏:Code思维奇妙屋Code思维奇妙屋
百度网盘爬虫

现在市面上出现了很多网盘搜索引擎,写这系列博文及爬虫程序的初衷:

  • 更方面的查找资源
  • 学习C#
  • 学习爬虫的设计与实现
  • 记录学习历程
  • 自我监督 能力有限,如有不妥之处,还请各位看官点评。同在学习的网友~与君共勉。
工具/库选择
  • mysql5.6 (习惯使然,sqlserver比较庞大,个人使用起来不是很习惯,后期可能改为sqlserver)
  • HttpWebRequestHttpWebResponseJSON.NET
  • vs2015, .NET4.5 PS:介绍以上是权当做个备忘录/提示。
百度网盘搜索流程
代码语言:javascript
复制
此爬虫原理是通过爬取用户的分享/专辑保存链接来达到资源搜索的目的,而用户与用户之间通过订阅/关注来联系,慢慢形成一个庞大的爬虫网络。
  1. 首先设定爬取用户(初始化爬虫队列)。
  2. 遍历用户分享/专辑,更改队列状态。
  3. 将用户订阅/关注用户加入队列。
  4. 重复以上步骤。 PS:看似简单的流程,想要精工还需细磨。
获取百度网盘推荐用户
代码语言:javascript
复制
当没有订阅任何用户时,网盘的分享动态界面会出现一些用户噢。这是系统推荐的用户,虽然改动不一定会很大,但是可以作为爬虫的初始用户来处理(这种推荐用户听说关注的人都不少噢)

接口返回信息:

代码语言:javascript
复制
errorno: 状态码
request_id:请求ID
hotuser_list:用户列表

用户列表结构:

代码语言:javascript
复制
type:类型(通常返回-1,不明用途)
hot_uname:用户昵称
avatar_url:头像缩略图地址
intro:描述
follow_count:订阅人数
fans_count:粉丝人数
user_type:用户类型?(不明意义)
is_vip:是否为VIP
pubshare_count:分享数
hot_uk:不知道啥玩意
album_count:分享专辑数
END
代码语言:javascript
复制
暂时就写到这儿了,要去写代码了~ 写完再会
本文参与?腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-06-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客?前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 百度网盘爬虫
    • 工具/库选择
      • 百度网盘搜索流程
        • 获取百度网盘推荐用户
          • END
          相关产品与服务
          数据库
          云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
          http://www.vxiaotou.com