当前位置：主页 > 查看内容

一日一技：爬虫如何正确从网页中提取伪元素？

发布时间：2021-06-07 00:00| 有位朋友查看

简介：我们来看一个网页，大家想想使用 XPath 怎么抓……

我们来看一个网页，大家想想使用 XPath 怎么抓取。

可以看到，在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求：

网页也没有发起任何的Ajax 请求。那么，这段文字是从哪里来的?

我们来看一下这个网页对应的 HTML：

整个 HTML 里面，甚至连 JavaScript 都没有。那么这段文字是哪里来的呢?

有点经验的同学，可能会想到看一下这个example.css文件，其内容如下：

没错，文字确实在这里面。其中::after，我们称之为伪元素(Pseudo-element)[1]。

对于伪元素里面的文字，应该如何提取呢?当然，你可以使用正则表达式来提取。不过我们今天不准备讲这个。

XPath 没有办法提取伪元素，因为 XPath 只能提取 Dom 树中的内容，但是伪元素是不属于 Dom 树的，因此无法提取。要提取伪元素，需要使用 CSS 选择器。

由于网页的 HTML 与 CSS 是分开的。如果我们使用 requests 或者 Scrapy，只能单独拿到 HTML 和 CSS。单独拿到 HTML 没有任何作用，因为数据根本不在里面。单独拿到 CSS，虽然有数据，但如果不用正则表达式的话，里面的数据拿不出来。所以 BeautifulSoup4的 CSS 选择器也没有什么作用。所以我们需要把 CSS 和 HTML 放到一起来渲染，然后再使用JavaScript 的 CSS 选择器找到需要提取的内容。

首先我们来看一下，为了提取这个伪元素的值，我们需要下面这段Js 代码：

window.getComputedStyle(document.querySelector('.fake_element'),':after').getPropertyValue('content')

其中，ducument.querySelector的第一个参数.fake_element就表示值为fake_element的 class 属性。第二个参数就是伪元素:after。运行效果如下图所示：

为了能够运行这段 JavaScript，我们需要使用模拟浏览器，无论是 Selenium 还是 Puppeteer 都可以。这里以 Selenium 为例。

在 Selenium 要执行 Js，需要使用driver.execute_script()方法，代码如下：

提取出来的内容最外层会包上一对双引号，拿到以后移除外侧的双引号，就是我们在网页上看到的内容了。

参考资料

[1]伪元素(Pseudo-element): https://developer.mozilla.org/zh-CN/docs/Web/CSS/Pseudo-elements

本文转载自微信公众号「未闻Code」，可以通过以下二维码关注。转载本文请联系未闻Code公众号。

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/5G_EUZ5m15YGbSqJKkjOug
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：社区买菜混战，谁给商贩留条活路？ 下一篇：没有了

随机推荐

数据中心与电网的协同-数网协同的重要保

提到数网协同中的网，人们的第一反应一定是通信网络，但对于数据中心这样涉及到...
按需部署：中国电信计划2021年开通32万座

今日，中国电信公布2020年全年业绩，报告期内实现经营收入为人民币3936亿元，同...
中国移动：全年开通5G基站超39万个确保4

虽然突如其来的疫情，但这并没有阻挡中国移动快速拓展5G基站的决心。中国移动总...
2020年手机行业的“中场战事”

早在去年年底，业内就普遍分析，2020年全球手机市场将面临巨大的不确定性：一方...
关于2021年及未来，人工智能的5大趋势预

吴恩达教授（美国斯坦福大学计算机科学系和电子工程系副教授）曾反复强调一句名...
科学盘点认知图谱：全球第三代AI的“大”

近年来，人工智能（AI）依靠深度学习、计算机视觉、自然语言处理等技术突破与落...
国内首个海底数据舱落地珠海，大数据中心

1月10日，由北京海兰信数据科技股份有限公司(以下简称海兰信)联合中国船舶集团广...
数据中心供电系统中柴油发电机将会被电池

2020年是新基建元年，数据中心作为数字经济的命脉，在新基建发展建设过程中有着...
5G消息今年或将正式商用

虽然个人短信被IM软件碾压，但短信并未死，甚至呈现水下的繁荣现象。根据工信部...
聊聊多人语音通话的基本原理

0.引言本文主要是介绍一些基本工作原理，包括移动Mesh网络，VOIP技术等。 1.移...

一日一技：爬虫如何正确从网页中提取伪元素？

推荐图文

2020年5G手机销量占比将超75% 解决“缺芯”之痛需多

Android 12有望允许用户通过“附近分享”功能分享Wi

新基建刚起步，5G才开始，智能手机关键年在2021

人工智能到底是什么？它会取代人类吗？一本书讲透AI

人工智能推动技术和数据治理的发展

3分钟帮你快速了解UI设计全流程

随机推荐

数据中心与电网的协同-数网协同的重要保

按需部署：中国电信计划2021年开通32万座

中国移动：全年开通5G基站超39万个确保4

2020年手机行业的“中场战事”

关于2021年及未来，人工智能的5大趋势预

科学盘点认知图谱：全球第三代AI的“大”

国内首个海底数据舱落地珠海，大数据中心

数据中心供电系统中柴油发电机将会被电池

5G消息今年或将正式商用

聊聊多人语音通话的基本原理

关于我们