干了这碗汤，你也可以愉快地爬虫了

文章来源：企鹅号 - 是笨笨呀

分析正经干货

你的关注是我持续写作的动力

大家在爬取网页时的流程一般如下：

确定要爬的网址（url）

使用 python 登录上这个网址（urlopen、requests 等）

读取网页信息（read() 出来）

将读取的信息放入 BeautifulSoup

使用 BeautifulSoup?解析目标等

可以看到，页面的获取其实不难，难的是数据的筛选，即如何获取到自己想要的数据。本文就带大家学习下 BeautifulSoup 的使用。

BeautifulSoup 官网介绍如下：

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式，能够帮你节省数小时甚至数天的工作时间。

本文由“壹伴编辑器”提供技术支持

1 安装

可以利用 pip 直接安装：

BeautifulSoup 不仅支持 HTML 解析器，还支持一些第三方的解析器，如 lxml，XML，html5lib 但是需要安装相应的库。如果我们不安装，则 Python 会使用 Python 默认的解析器，其中 lxml 解析器更加强大，速度更快，推荐安装。

2 BeautifulSoup 的简单使用

首先我们先新建一个字符串，后面就以它来演示 BeautifulSoup 的使用。

使用 BeautifulSoup 解析这段代码，能够得到一个 BeautifulSoup 的对象，并能按照标准的缩进格式的结构输出：

篇幅有限，输出结果这里不再展示。

另外，这里展示下几个简单的浏览结构化数据的方法：

干了这碗汤

3 对象的种类

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构，每个节点都是 Python 对象，所有对象可以归纳为 4 种: Tag、NavigableString、BeautifulSoup、Comment 。

3.1 Tag

通俗点讲就是 HTML 中的一个个标签，像上面的 div，p，例如：

可以利用 soup 加标签名轻松地获取这些标签的内容。

不过有一点是，它查找的是在所有内容中的第一个符合要求的标签，如果要查询所有的标签，我们在后面进行介绍。

每个有两个重要的属性和，name 指标签的名字或者 tag 本身的 name，attrs 通常指一个标签的 class。

3.2 NavigableString

：获取标签内部的文字，如 soup.p.string。

3.3 BeautifulSoup

：表示一个文档的全部内容。大部分时候，可以把它当作 Tag 对象，是一个特殊的 Tag。

3.4 Comment

对象是一个特殊类型的对象，其输出的内容不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。

b 标签里的内容实际上是注释，但是如果我们利用来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦。

这时候我们可以先判断了它的类型，是否为类型，然后再进行其他操作，如打印输出等。

本文由“壹伴编辑器”提供技术支持

4 搜索文档树

BeautifulSoup主要用来遍历子节点及子节点的属性，并提供了很多方法，比如获取子节点、父节点、兄弟节点等，但通过实践来看，这些方法用到的并不多。我们主要用到的是从文档树中搜索出我们的目标。

通过点取属性的方式只能获得当前文档中的第一个，例如，。如果想要得到所有的标签，就需要用到，find_all() 方法搜索当前 tag 的所有 tag 子节点，并判断是否符合过滤器的条件 find_all() 所接受的参数如下：

4.1 按 name 搜索

可以查找所有名字为 name 的 tag，字符串对象会被自动忽略掉。

4.2 按 id 搜索

如果文档树中包含一个名字为 id 的参数，其实在搜索时会把该参数当作指定名字 tag 的属性来搜索：

4.3 按 attr 搜索

有些 tag 属性在搜索不能使用，比如 HTML5 中的 data-* 属性，但是可以通过 find_all() 方法的参数定义一个字典参数来搜索包含特殊属性的 tag。

其实 id 也是一个 attr：

4.4 按 CSS 搜索

按照 CSS 类名搜索 tag 的功能非常实用，但标识 CSS 类名的关键字 class 在 Python 中是保留字，使用 class 做参数会导致语法错误。因此从 Beautiful Soup 的 4.1.1 版本开始，可以通过参数搜索有指定 CSS 类名的 tag：

4.5 string 参数

通过 string 参数可以搜搜文档中的字符串内容。与 name 参数的可选值一样，string 参数接受字符串、正则表达式、列表、True。

4.6 recursive 参数

调用 tag 的 find_all() 方法时，Beautiful Soup 会检索当前 tag 的所有子孙节点，如果只想搜索 tag 的直接子节点，可以使用参数。

4.6 find() 方法

它与方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表，而方法只返回第一个匹配的结果。

4.7 get_text() 方法

如果只想得到 tag 中包含的文本内容，那么可以用方法，这个方法获取到 tag 中包含的所有文本内容。

至此，Beautiful Soup 的常用使用方法已讲完，若果想了解更多内容，可以看下官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/。

总结

本篇主要带大家了解了 Beautiful Soup，结合一些小例子，相信大家对 Beautiful Soup 已不再陌生，下回会带大家结合 Beautiful Soup 进行爬虫的实战，欢迎继续关注！

以上就是本次的全部内容了，方便自己查阅也希望对各位读者有一丢丢用。

文章太长，耐心看到这的，我得给你点个赞。如果觉得还不错，也给我右下角点个赞吧！

你的关注是我持续写作的动力！

发表于: 2018-06-202018-06-20 21:14:21
原文链接：https://kuaibao.qq.com/s/20180620G1XSDV00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

干了这碗汤，你也可以愉快地爬虫了

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐