当前位置：主页 > 查看内容

四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？

发布时间：2021-05-27 00:00| 有位朋友查看

简介：在使用Python本爬虫采集数据时，一个很重要的操作就是如何从请求到的网页中提取数据，而正确定位想要的数据又是第一步操作。本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习：传统 BeautifulSoup 操作基于 BeautifulSoup 的 CSS 选……

在使用Python本爬虫采集数据时，一个很重要的操作就是如何从请求到的网页中提取数据，而正确定位想要的数据又是第一步操作。

本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习：

传统 BeautifulSoup 操作
基于 BeautifulSoup 的 CSS 选择器(与 PyQuery 类似)
XPath
正则表达式

参考网页是当当网图书畅销总榜：

http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1

我们以获取第一页 20 本书的书名为例。先确定网站没有设置反爬措施，是否能直接返回待解析的内容：

import requests 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
print(response)

仔细检查后发现需要的数据都在返回内容中，说明不需要特别考虑反爬举措

审查网页元素后可以发现，书目信息都包含在 li 中，从属于 class 为 bang_list clearfix bang_list_mode 的 ul 中

进一步审查也可以发现书名在的相应位置，这是多种解析方法的重要基础

1. 传统 BeautifulSoup 操作

经典的 BeautifulSoup 方法借助 from bs4 import BeautifulSoup，然后通过 soup = BeautifulSoup(html, "lxml") 将文本转换为特定规范的结构，利用 find 系列方法进行解析，代码如下：

import requests 
from bs4 import BeautifulSoup 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
 
def bs_for_parse(response): 
    soup = BeautifulSoup(response, "lxml") 
    li_list = soup.find('ul', class_='bang_list clearfix bang_list_mode').find_all('li') # 锁定ul后获取20个li 
    for li in li_list: 
        title = li.find('div', class_='name').find('a')['title'] # 逐个解析获取书名 
        print(title) 
 
if __name__ == '__main__': 
    bs_for_parse(response)

成功获取了 20 个书名，有些书面显得冗长可以通过正则或者其他字符串方法处理，本文不作详细介绍

2. 基于 BeautifulSoup 的 CSS 选择器

这种方法实际上就是 PyQuery 中 CSS 选择器在其他模块的迁移使用，用法是类似的。关于 CSS 选择器详细语法可以参考：http://www.w3school.com.cn/cssref/css_selectors.asp由于是基于 BeautifulSoup 所以导入的模块以及文本结构转换都是一致的：

import requests 
from bs4 import BeautifulSoup 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
         
def css_for_parse(response): 
    soup = BeautifulSoup(response, "lxml")  
    print(soup) 
 
if __name__ == '__main__': 
    css_for_parse(response)

然后就是通过 soup.select 辅以特定的 CSS 语法获取特定内容，基础依旧是对元素的认真审查分析：

import requests 
from bs4 import BeautifulSoup 
from lxml import html 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
         
def css_for_parse(response): 
    soup = BeautifulSoup(response, "lxml") 
    li_list = soup.select('ul.bang_list.clearfix.bang_list_mode > li') 
    for li in li_list: 
        title = li.select('div.name > a')[0]['title'] 
        print(title) 
 
if __name__ == '__main__': 
    css_for_parse(response)

3. XPath

XPath 即为 XML 路径语言，它是一种用来确定 XML 文档中某部分位置的计算机语言，如果使用 Chrome 浏览器建议安装 XPath Helper 插件，会大大提高写 XPath 的效率。

之前的爬虫文章基本都是基于 XPath，大家相对比较熟悉因此代码直接给出：

import requests 
from lxml import html 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
 
def xpath_for_parse(response): 
    selector = html.fromstring(response) 
    books = selector.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li") 
    for book in books: 
        title = book.xpath('div[@class="name"]/a/@title')[0] 
        print(title) 
 
if __name__ == '__main__': 
    xpath_for_parse(response)

4. 正则表达式如果对 HTML 语言不熟悉，那么之前的几种解析方法都会比较吃力。这里也提供一种万能解析大法：正则表达式，只需要关注文本本身有什么特殊构造文法，即可用特定规则获取相应内容。依赖的模块是 re

首先重新观察直接返回的内容中，需要的文字前后有什么特殊：

import requests 
import re 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
print(response)

观察几个数目相信就有答案了：<div class="name"><a href="http://product.dangdang.com/xxxxxxxx.html" target="_blank" title="xxxxxxx">

书名就藏在上面的字符串中，蕴含的网址链接中末尾的数字会随着书名而改变。

分析到这里正则表达式就可以写出来了：

import requests 
import re 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
 
def re_for_parse(response): 
    reg = '<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">' 
    for title in re.findall(reg, response): 
        print(title) 
 
if __name__ == '__main__': 
    re_for_parse(response)

可以发现正则写法是最简单的，但是需要对于正则规则非常熟练。所谓正则大法好!

当然，不论哪种方法都有它所适用的场景，在真实操作中我们也需要在分析网页结构来判断如何高效的定位元素，最后附上本文介绍的四种方法的完整代码，大家可以自行操作一下来加深体会

import requests 
from bs4 import BeautifulSoup 
from lxml import html 
import re 
 
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1' 
response = requests.get(url).text 
 
def bs_for_parse(response): 
    soup = BeautifulSoup(response, "lxml") 
    li_list = soup.find('ul', class_='bang_list clearfix bang_list_mode').find_all('li') 
    for li in li_list: 
        title = li.find('div', class_='name').find('a')['title'] 
        print(title) 
 
def css_for_parse(response): 
    soup = BeautifulSoup(response, "lxml") 
    li_list = soup.select('ul.bang_list.clearfix.bang_list_mode > li') 
    for li in li_list: 
        title = li.select('div.name > a')[0]['title'] 
        print(title) 
 
def xpath_for_parse(response): 
    selector = html.fromstring(response) 
    books = selector.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li") 
    for book in books: 
        title = book.xpath('div[@class="name"]/a/@title')[0] 
        print(title) 
 
def re_for_parse(response): 
    reg = '<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">' 
    for title in re.findall(reg, response): 
        print(title) 
 
if __name__ == '__main__': 
    # bs_for_parse(response) 
    # css_for_parse(response) 
    # xpath_for_parse(response) 
    re_for_parse(response)

【责任编辑：赵宁宁 TEL：（010）68476606】
本文转载自网络，原文链接：http://mp.weixin.qq.com/s?__biz=Mzg5OTU3NjczMQ==&mid=2247510836&idx=1&sn=4552041d5f600abaa6a361e7a9d41539&chksm=c053cdc0f72444d6ab9b870b41bb33dd208f985538c55b867e327376df1b28217a99c9d12d3d&mpshare=1&s
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：C语言实现MD5加密，竟如此简单！ 下一篇：没有了

随机推荐

多云数据存储的优秀实践

在复杂的多云部署中，数据存储的优秀实践是什么?哪种数据存储基础设施更能满足多...
Hive数据倾斜案例讲解

实际搞过离线数据处理的同学都知道，Hive SQL 的各种优化方法都是和数据倾斜密切...
“礼物”域名12万元领衔！韩国最大比特币

TOP云（west.cn）6月7日消息，最新一期的sedo交易榜出炉，本期上榜的域名共有...
一篇文章带你搞定Go语言基础之文件操作

前言 Hey，大家好呀，我是Go进阶者，这次咱们来说一下文件操作。文件操作就简单...
云服务器弹性网卡问题 - 常见问题

什么是弹性网卡？弹性网卡（Elastic Network Interface，ENI）是绑定私有网络内...
云服务器续费实例询价 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口 (InquiryPriceR...
智变·创变 l 大咖云集，共叙数字化转型

【51CTO.com原创稿件】2020年注定是让人难以忘怀的一年，不仅因为突如其来的新冠...
阿里云上新了：搭载最新至强处理器Ice La

4 月 20 日，阿里云宣布 2 月发布的第七代 ECS 云服务器产品家族全面开启公测。...
数据分析在优化组织管理中发挥巨大作用

数据分析对优化组织管理的过程产生巨大影响。近年来，利用数据分析的组织数量猛...
域名icp备案多长时间

域名 ICP备案多长时间？域名备案的具体时间虽然不能百分百确定，但大概时间还...

四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？

推荐图文

宁波市教育局：阿里云助力甬上云校公益课程

乘风破浪：2020年疫情开启“云上盛会”

2020CKA考试考题详解

React的并发模式该如何使用？

如何推动企业高频创新亚马逊科技CIO云途会首站走进

服务器操作系统怎么选

随机推荐

多云数据存储的优秀实践

Hive数据倾斜案例讲解

“礼物”域名12万元领衔！韩国最大比特币

一篇文章带你搞定Go语言基础之文件操作

云服务器弹性网卡问题 - 常见问题

云服务器续费实例询价 - API 文档

智变·创变 l 大咖云集，共叙数字化转型

阿里云上新了：搭载最新至强处理器Ice La

数据分析在优化组织管理中发挥巨大作用

域名icp备案多长时间

关于我们