当前位置：主页 > 查看内容

在Scrapy中如何利用Xpath选择器从网页中采集目标数据

发布时间：2021-04-28 00:00| 有位朋友查看

简介：这篇文章我们将通过Xpath表达式来进行提取数据，具体教程如下，仍然以之前的网站为例进行说明，我们的目标数据是标题、发布日期、主题、正文内容、点赞数、收藏数、评论数等。具体的教程如下。 /具体实现/ 1、针对标题，在上篇文章中就有提及，其Xpath表达式……

这篇文章我们将通过Xpath表达式来进行提取数据，具体教程如下，仍然以之前的网站为例进行说明，我们的目标数据是标题、发布日期、主题、正文内容、点赞数、收藏数、评论数等。具体的教程如下。

/具体实现/

1、针对标题，在上篇文章中就有提及，其Xpath表达式有多种，任选其一即可，在scrapy shell脚本下进行调试，得到标题的提取方式，并写入到爬虫主体文件中。

2、接下来是发布日期的提取，仍然是以交互式的方式实现网页与源码之间的交互，如下图所示。

3、而且标签“entry-meta-hide-on-mobile”具有全局唯一性，可以很方便的定位到元素。

4、根据网页结构，我们可轻易的写出发布日期的Xpath表达式，可以在scrapy shell中先进行测试，再将选择器表达式写入爬虫文件中，详情如下图所示。

这里有部分杂质信息，需要利用strip()和replace()函数剔除多余的杂质，还日期一个“清白”。

5、关于文章主题标签的Xpath表达式，可以看到其在网页结构上处于日期的下方，如下图所示。

因此可以通过更改一下发布日期的Xpath表达式，即可获取到文章主题标签。

6、文章主题标签处于a标签下，如下图所示。

获取到整个列表之后，利用join函数将数组中的元素以逗号连接生成一个新的字符串叫tags，然后写入Scrapy爬虫文件中去。

7、对于点赞数，其分析方法同之前一致，找到唯一的一个标签“vote-post-up”即可定位到数据。

8、细心的小伙伴可能会看到“vote-post-up”属性并不是class标签中唯一一个属性，所以一开始的Xpath表达式匹配的内容为空。

这里给大家安利一个小技巧，如果标签中存在多个属性，且属性是唯一的时候，可以利用contains函数进行助攻，其用法是'//span[contains(@class,"vote-post-up")，务必要多加练习，否则容易忘记。根据网页结构写出Xpath表达式，调试的过程如下图所示。

取出的点赞数是个字符串，需要利用int()将其强制转换为数字。

/小结/

本文基于Xpath理论基础，主要介绍了Scrapy爬虫框架中利用Xpath选择器提取某个网页中目标数据的方法，为后面抓取全网数据埋下伏笔，更精彩的操作在下篇文章奉上，希望对大家的学习有帮助。

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/QLQivfi0hwmJsyxQd5-sgw
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：delete、truncate、drop的区别有哪些，该如何选择 下一篇：一文搞懂MySQL行锁、表锁、间隙锁详解

随机推荐

ASP.NET Core中的Action的返回值类型实现

在Asp.net Core之前所有的Action返回值都是ActionResult，Json(),File()等方法返...
关于ajax的使用方法_例题、ajax的数据处

需要注意的是，调用的封装的数据库，和jQuery的保存地址一、注册（1）写文本框...
.NET 开发环境搭建图文详解

1 概述在接下来的时间里，将会入手ASP.NET MVC这一专题，尽量用最快的时间，最...
MySQL 8.0.23新特性 - 不可见列

在新的MySQL 8.0.23中，引入了新的有趣功能：不可见列。这是第一篇关于这个新功...
帮你精通Emacs：两枚核弹级的应用及求问

多年以后，面对台下五彩斑斓的Jetbrain和Vscode用户，这位曾经的资深的vim追随者...
git中ssh key配置详解

git clone支持https和git（即ssh）两种方式下载源码：当使用git方式下载时，如...
jQuery使用hide()、toggle()函数实现相机

最近在学习jQuery时接触到了show()、hide()、toggle()函数，于是利用这几个函数...
用OSPF进行vlan划分

大家好我是爱景甜的网工我是一个思科出身专注于华为的网工好了话不多说进入正题...
详解Spring Controller autowired Reques

详解Spring Controller autowired Request变量 spring的DI大家比较熟悉了，对于...
JS正则表达式获取指定字符之后指定字符之

一个常见的场景，获取：标签背景图片链接：如字符串：var bgImg = "url (\" htt...