初识BeautifulSoup

文章来源：企鹅号 - 痛点就是起点

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 python 库，它能通过解析器实现文档的查找提取和修改等功能。

1.BeautifulSoup 的安装

对于 BeautifulSoup，目前推荐使用的是 BeautifulSoup 4，BeautifulSoup 3　已经停止开发了。安装 BeautifulSoup 4 有四种方式。

1.最新版的 Debain 或 Ubuntu 系统可以通过系统的软件包管理来安装，sudo apt-get install Python-bs4。

2.BeautifulSoup 4 通过 PyPi 发布，可以通过 easy_install 或 pip 来安装，easy_install beautifulsoup4　或 pip install beautifulsoup4。

3.通过源码安装，BeautifulSoup 4 的源码地址为https://pypi.python.org/pypi/beautifulsoup4/，下载源码，解压后，运行命令 python setup.py install 即可完成安装。

4.通过 PyCharm 里 Project Interpreter 安装 BeautifulSoup 4。

BeautifulSoup 支持 Python 标准库中的 HTML 解析器，还支持一些第三方解析器，如，lxml，html5lib 等，安装这些解析器方法与安装 BeautifulSoup 4 类似。

2.BeautifulSoup 的使用

BeautifulSoup 将复杂的 HTML 文档转换成一个复杂的树形结构，每个节点是 python 对象，这些对象可以归纳为 Tag、NavigableString、BeautifulSoup、Comment。

1.Tag 对象

Tag 对象可以直接以标签名获取标签内容，Tag 对象还有两个属性 name 和 attr，分别表示获取到标签的名称和标签属性内容（以字典的形式返回）。

2.NavigableString 对象

NavigableString 对象用来获取标签内部字符串，利用属性 string 来获取。

3.BeautifulSoup 对象

BeautifulSoup 对象表示一个文档的全部内容，可以理解为特殊的 Tag 对象。

4.Comment 对象

Commnet 对象用来获取文档中注释的内容。

5.BeautifulSoup 支持文档树遍历，可以根据子节点、父节点、兄弟节点和前后节点进行遍历。

BeautifulSoup 还支持 find() 方法搜索文档树，以及支持 select() 方法根据 CSS 选择器查找文档中指定的标签。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货