当前位置:主页 > 查看内容

游走在 “法律边缘” 的数据采集者,直播梳理

发布时间:2021-08-11 00:00| 位朋友查看

简介:橡皮擦一个逗趣的互联网高级网虫。 这篇文章是直播 《爬虫虽好却危险小姐姐解答爬虫三千问》 的文字稿希望能帮助到大家。 数据采集手段之一爬虫 网络爬虫是数据采集的一种形式它可以由任意语言实现PythonJavaGo 实现原理基本一致甚至 PHP 编写爬虫 Web 站在……

橡皮擦,一个逗趣的互联网高级网虫。

这篇文章是直播 《爬虫虽好却危险,小姐姐解答爬虫三千问》 的文字稿,希望能帮助到大家。

游走在 “法律边缘” 的数据采集者,直播梳理

数据采集手段之一:爬虫

网络爬虫是数据采集的一种形式,它可以由任意语言实现,Python,Java,Go 实现原理基本一致,甚至 PHP 编写爬虫 Web 站在某段时间是仿站的主流手段。

数据采集的工作是从数据源获得数据信息。目前大家最熟识的就是网络爬虫,在具体些分为,网页爬虫和 APP 爬虫。

网页爬虫一般英文叫做 web crawler,一般是指用脚本工具来截取网页上的内容,本质是一种数据收集工具。

网页爬虫常见的软件有:CharlesFiddlerWireshark
APP 爬虫编写中常用的软件有:mitmproxyPacket Capturetcpdump

工具没有最好,只有最熟悉与最适合你的。

爬虫涉及的领域

  • 搜索引擎,例如百度
  • 垂直爬虫,例如抢票软件;
  • 社交爬虫,例如微博爬虫;
  • 自动化爬虫,例如评论器;
  • 舆情监控
  • 聚合数据。
  • ……。

学习爬虫,需要学会的 Python 技术栈与框架

  • Python 语法;
  • 正则表达式;
  • 前端之 HTML+CSS+JS;
  • MySQL;
  • Redis;
  • requests;
  • scrapy;
  • ……。

常见的反爬手段

  • 验证码
  • IP 验证;
  • JS 加密;
  • 字体加密;
  • 特征识别;
  • ……。

学习爬虫最佳的路线

Python 语言体系。

  • Python 基础,到面向对象;
  • HTML+CSS;
  • 正则表达式;
  • requests 框架;
  • JSON;
  • MySQL;
  • Redis;
  • Scrapy;
  • APP 爬虫;
  • 反反爬;
  • 分布式爬虫;
  • ……。

爬虫会触犯法律吗?

  • 爬取过程中,搞坏了别人的服务器,或者造成攻击,就是违法;
  • 爬取个人信息,出售个人信息,就是违法;
  • 通过技术手段获取计算机存储、处理或者传输的数据,就是违法;
  • 对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,就是违法;
  • 把别人的收费课件,课程,资料爬取过来,进行二次销售,就是违法;
  • 以技术手段逆向手机 APP 获取资料,就是违法;
  • 对获取到的公司数据,进行销售获取收益,就是违法;

任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息;
个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。

总结下来:

学习爬虫,一定注意 不可爬取个人隐私信息,不要采用爬虫非法获利,不要爬取网站的付费内容

相关阅读

  1. Python 爬虫 100 例教程,超棒的爬虫教程,立即订阅吧
  2. Python 游戏世界(更新中,目标文章数 50+,现在订阅,都是老粉)
  3. Python 爬虫小课,精彩 9 讲,只要 9 块 9

今天是持续写作的第 136 / 200 天。
如果你想跟博主建立亲密关系,可以关注同名公众号 梦想橡皮擦,近距离接触一个逗趣的互联网高级网虫。
博主 ID:梦想橡皮擦,希望大家点赞评论收藏

;原文链接:https://blog.csdn.net/hihell/article/details/115839440
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文


随机推荐