python爬虫之Xpath案例解析

原创

小白学大数据

发布于 2023-07-05 17:16:36

2790

发布于 2023-07-05 17:16:36

文章被收录于专栏：python进阶学习python进阶学习

在python爬虫中有时候需要使用到数据解析，是因为爬取到的网页内容通常包含大量标签和结构的HTML或XML文档。这些文档中包含所需数据的信息，但是需要通过解析才能提取出来，以便后续的处理和分析。

在python爬虫中，数据解析是很重要的一环，它能够将爬取到的原始网页内容转化为可用的、结构化的数据，从而更加方便地进行后续的处理和分析。

在Python爬虫中，有多种数据解析技术可供选择，常用的包括以下几种：

1、Beautiful Soup：Beautiful Soup是一个流行的Python库，用于解析HTML和XML文档，提供了简洁的API来提取所需的数据。它支持标签选择、CSS选择器和正则表达式等多种方式。

2、XPath：XPath是一种用于选取XML文档中节点的语言，也可以应用于HTML解析。在Python中，可以通过lxml库使用XPath进行网页解析。XPath使用路径表达式来定位和提取节点，具有强大的灵活性。

3、正则表达式：正则表达式是一种强大的模式匹配工具，在Python中通过re模块实现。正则表达式可以用于处理文本数据，并从中提取所的信息。对于简单的数据提取，正则表达式是快速而有效的选择。

上次学习过了BeautifulSoup进行解析的，这次就来学习一下Xpath进行解析，它是最常用且最高效的一种解析方式。我们通过爬取58二手房中的房源信息来实践一下Xpath的使用方式：

import requests
from lxml import etree

if __name__ == "__main__":
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }
    #爬取到页面源码数据
    url = 'https://bj.58.com/ershoufang/'
    page_text = requests.get(url=url,headers=headers).text

    #数据解析
    tree = etree.HTML(page_text)
    #存储的就是li标签对象
    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
    fp = open('58.txt','w',encoding='utf-8')
    for li in li_list:
        #局部解析
        title = li.xpath('./div[2]/h2/a/text()')[0]
        print(title)
        fp.write(title+'\n')

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

python

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

python

登录后参与评论

0 条评论

热度

python爬虫之Xpath案例解析

python爬虫之Xpath案例解析

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐