首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

初识BeautifulSoup

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 python 库,它能通过解析器实现文档的查找提取和修改等功能。

1.BeautifulSoup 的安装

对于 BeautifulSoup,目前推荐使用的是 BeautifulSoup 4,BeautifulSoup 3 已经停止开发了。安装 BeautifulSoup 4 有四种方式。

1.最新版的 Debain 或 Ubuntu 系统可以通过系统的软件包管理来安装,sudo apt-get install Python-bs4。

2.BeautifulSoup 4 通过 PyPi 发布,可以通过 easy_install 或 pip 来安装,easy_install beautifulsoup4 或 pip install beautifulsoup4。

3.通过源码安装,BeautifulSoup 4 的源码地址为https://pypi.python.org/pypi/beautifulsoup4/,下载源码,解压后,运行命令 python setup.py install 即可完成安装。

4.通过 PyCharm 里 Project Interpreter 安装 BeautifulSoup 4。

BeautifulSoup 支持 Python 标准库中的 HTML 解析器,还支持一些第三方解析器,如,lxml,html5lib 等,安装这些解析器方法与安装 BeautifulSoup 4 类似。

2.BeautifulSoup 的使用

BeautifulSoup 将复杂的 HTML 文档转换成一个复杂的树形结构,每个节点是 python 对象,这些对象可以归纳为 Tag、NavigableString、BeautifulSoup、Comment。

1.Tag 对象

Tag 对象可以直接以标签名获取标签内容,Tag 对象还有两个属性 name 和 attr,分别表示获取到标签的名称和标签属性内容(以字典的形式返回)。

2.NavigableString 对象

NavigableString 对象用来获取标签内部字符串,利用属性 string 来获取。

3.BeautifulSoup 对象

BeautifulSoup 对象表示一个文档的全部内容,可以理解为特殊的 Tag 对象。

4.Comment 对象

Commnet 对象用来获取文档中注释的内容。

5.BeautifulSoup 支持文档树遍历,可以根据子节点、父节点、兄弟节点和前后节点进行遍历。

BeautifulSoup 还支持 find() 方法搜索文档树,以及支持 select() 方法根据 CSS 选择器查找文档中指定的标签。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190111G176DZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com