当前位置：主页 > 查看内容

游走在 “法律边缘” 的数据采集者，直播梳理

发布时间：2021-08-11 00:00| 有位朋友查看

简介：橡皮擦一个逗趣的互联网高级网虫。这篇文章是直播《爬虫虽好却危险小姐姐解答爬虫三千问》的文字稿希望能帮助到大家。数据采集手段之一爬虫网络爬虫是数据采集的一种形式它可以由任意语言实现PythonJavaGo 实现原理基本一致甚至 PHP 编写爬虫 Web 站在……

橡皮擦，一个逗趣的互联网高级网虫。

这篇文章是直播《爬虫虽好却危险，小姐姐解答爬虫三千问》的文字稿，希望能帮助到大家。

游走在 “法律边缘” 的数据采集者，直播梳理

数据采集手段之一：爬虫

网络爬虫是数据采集的一种形式，它可以由任意语言实现，Python，Java，Go 实现原理基本一致，甚至 PHP 编写爬虫 Web 站在某段时间是仿站的主流手段。

数据采集的工作是从数据源获得数据信息。目前大家最熟识的就是网络爬虫，在具体些分为，网页爬虫和 APP 爬虫。

网页爬虫一般英文叫做 web crawler，一般是指用脚本工具来截取网页上的内容，本质是一种数据收集工具。

网页爬虫常见的软件有：Charles，Fiddler，Wireshark。
APP 爬虫编写中常用的软件有：mitmproxy，Packet Capture，tcpdump。

工具没有最好，只有最熟悉与最适合你的。

爬虫涉及的领域

搜索引擎，例如百度；
垂直爬虫，例如抢票软件；
社交爬虫，例如微博爬虫；
自动化爬虫，例如评论器；
舆情监控；
聚合数据。
……。

学习爬虫，需要学会的 Python 技术栈与框架

Python 语法；
正则表达式；
前端之 HTML+CSS+JS；
MySQL；
Redis；
requests;
scrapy;
……。

常见的反爬手段

验证码；
IP 验证；
JS 加密；
字体加密；
特征识别；
……。

学习爬虫最佳的路线

Python 语言体系。

Python 基础，到面向对象；
HTML+CSS；
正则表达式；
requests 框架；
JSON；
MySQL；
Redis；
Scrapy；
APP 爬虫；
反反爬；
分布式爬虫；
……。

爬虫会触犯法律吗？

爬取过程中，搞坏了别人的服务器，或者造成攻击，就是违法；
爬取个人信息，出售个人信息，就是违法；
通过技术手段获取计算机存储、处理或者传输的数据，就是违法；
对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏，就是违法；
把别人的收费课件，课程，资料爬取过来，进行二次销售，就是违法；
以技术手段逆向手机 APP 获取资料，就是违法；
对获取到的公司数据，进行销售获取收益，就是违法；

任何个人和组织不得窃取或者以其他非法方式获取个人信息，不得非法出售或者非法向他人提供个人信息；
个人信息，是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息，包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。

总结下来：

学习爬虫，一定注意 不可爬取个人隐私信息，不要采用爬虫非法获利，不要爬取网站的付费内容。

相关阅读

今天是持续写作的第 136 / 200 天。
如果你想跟博主建立亲密关系，可以关注同名公众号梦想橡皮擦，近距离接触一个逗趣的互联网高级网虫。
博主 ID：梦想橡皮擦，希望大家点赞、评论、收藏。

；原文链接：https://blog.csdn.net/hihell/article/details/115839440
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：多线程这些都不清楚，你面试？还不赶紧看看？细到恐怖.... 下一篇：【C语言从青铜到荣耀——6】

随机推荐

Android 微信文件传输助手文件夹

微信文件传输助手是微信电脑版与手机微信之间相互传输图片等文件的好工具，但很...
ES6的循环与可迭代对象示例详解

本文将研究 ES6 的 for ... of 循环。旧方法在过去，有两种方法可以遍历 javas...
Vue中computed和watch有哪些区别

计算属性computed：支持缓存，只有依赖数据发生改变，才会重新进行计算不支持...
成也数据库败也数据库 Oracle 如何云渡

一石激起千层浪，继中国区浩浩荡荡的大裁员告一段落之后，甲骨文并未因此收起手...
vbs:把一段文字中指定字符颜色变成红色的

vbs:把一段文字中指定字符颜色变成红色的正则 functionc(Tstr,Word) Dimre Setre...
正则表达式的应用

一、正则表达式概述二、正则表达式在VBScript中的应用三、正则表达式在VavaScr...
ASP 常见对象总结(熟悉一下利用以后的开

ADO对象： Connection Command Recordset Record Stream ASP支持的对象很多，可...
歌词编辑器和选择歌曲可播放的网页

歌词编辑器歌词编辑器第一步：选择要播放的歌曲并播放第二步：填写全部的歌词...
利用Typings为Visual Studio Code实现智

前言相信大家都知道在IDE中代码的智能提示几乎都是标配，虽然一些文本编辑器也...
【排序算法】之lowb三人组（冒泡、插入、

【排序算法】之lowb三人组冒泡、插入、选择什么是lowb三人组冒泡排序bubble so...

游走在 “法律边缘” 的数据采集者，直播梳理

推荐图文

java面试2021年高级（中、初）程序员算法、数据结构

湖南大学计科专业分流个人建议

关于爬虫和反爬虫的简略方案分享

ESP32学习笔记（2）——GPIO接口使用

AIOps工具，要开源还是闭源？

JSP实现计算器功能（网页版）

随机推荐

Android 微信文件传输助手文件夹

ES6的循环与可迭代对象示例详解

Vue中computed和watch有哪些区别

成也数据库败也数据库 Oracle 如何云渡

vbs:把一段文字中指定字符颜色变成红色的

正则表达式的应用

ASP 常见对象总结(熟悉一下利用以后的开

歌词编辑器和选择歌曲可播放的网页

利用Typings为Visual Studio Code实现智

【排序算法】之lowb三人组（冒泡、插入、

关于我们