当前位置：主页 > 查看内容

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

发布时间：2021-10-15 00:00| 有位朋友查看

简介：前一阶段我们已经实现了通过Scrapy抓取某一具体网页页面的具体信息，关于Scrapy爬虫框架中meta参数的使用示例演示(上)、关于Scrapy爬虫框架中meta参数的使用示例演示(下)，但是未实现对所有页面的依次提……

前一阶段我们已经实现了通过Scrapy抓取某一具体网页页面的具体信息，关于Scrapy爬虫框架中meta参数的使用示例演示(上)、关于Scrapy爬虫框架中meta参数的使用示例演示(下)，但是未实现对所有页面的依次提取。首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，便可以实现整个网页中的信息提取。其具体的实现过程将通过Scrapy框架来进行实现，具体的教程如下。

/具体实现/

1、首先URL不再是某一篇具体文章的URL了，而是所有文章列表的URL，如下图所示，将链接放到start_urls里边，如下图所示。

2、接下来我们将需要更改parse()函数，在这个函数中我们需要实现两件事情。

其一是获取某一页面所有文章的URL并对其进行解析，获取每一篇文章里的具体网页内容，其二是获取下一个网页的URL并交给Scrapy进行下载，下载完成之后再交给parse()函数。

有了之前的Xpath和CSS选择器基础知识之后，获取网页链接URL就变得相对简单了。

3、分析网页结构，使用网页交互工具，我们可以很快的发现每一个网页有20篇文章，即20个URL，而且文章列表都存在于id="archive"这个标签下面，之后像剥洋葱一样去获取我们想要的URL链接。

4、点开下拉三角，不难发现文章详情页的链接藏的不深，如下图圈圈中所示。

5、根据标签我们按图索骥，加上选择器利器，获取URL犹如探囊取物。在cmd中输入下图命令，以进入shell调试窗口，事半功倍。再次强调，这个URL是所有文章的网址，而不是某一篇文章的URL，不然后面你调试半天都不会有结果的。

6、根据第四步的网页结构分析，我们在shell中写入CSS表达式，并进行输出，如下图所示。其中a::attr(href)的用法很巧妙，也是个提取标签信息的小技巧，建议小伙伴们在提取网页信息的时候可以经常使用，十分方便。

至此，第一页的所有文章列表的URL已经获取到了。提取到URL之后，如何将其交给Scrapy去进行下载呢?下载完成之后又如何调用我们自己定义的解析函数呢?

欲知后事如何，且听下一篇文章分解。

/小结/

本文主要介绍了Scrapy爬虫框架抓取其中某个网页数据的理论，为后面抓取全网数据埋下伏笔，更精彩的操作在下篇文章奉上，希望对大家的学习有帮助。

想学习更多关于Python的知识，可以参考学习网址：http://pdcfighting.com/，点击阅读原文，可以直达噢~

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/wRlHxe1Ofv3AyECSh6gdiw
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：程序员必懂的Redis技术实战 下一篇：没有了

随机推荐

云计算离普通用户远吗？

近几年，云计算被应用到越来越多的领域，不少IT大厂争相转型为云计算厂商。云计...
私有网络请求结构 - API文档

1. 服务地址 API 支持就近地域接入，本产品就近地域接入域名为 vpc.tencentcloud...
2020年全球及中国云计算行业发展现状分析

未来新基建推动云计算行业将迎来黄金发展期云计算按服务模式分类，可分为Iaas(...
WebRTC 传输安全机制第二话：深入显出 SR

通过? DTLS 协商后 RTC 通信的双方完成?MasterKey 和 MasterSalt 的协商。接下...
网络安全的核心——服务器管理日志

国家机构和标准技术，编写了一个计算机安全日志管理，覆盖全域的监测和有关问题...
WebAssembly 在 MOSN 中的实践 - 基础框

作者：叶永杰来源：金融级分布式架构公众号本文将介绍 WebAssembly 技术在 MOS...
如何排查404/502/504错误？_Web应用防火

域名接入WAF防护之后，若您访问网站时出现404 Not Found、502 Bad Gateway，504 ...
API 概览 - 弹性高性能计算E-HPC

本文介绍弹性高性能计算E-HPC提供的相关API接口。集群 API 描述 DescribePrice ...
如何同区域同可用区的复制一个磁盘？_云

先对目标磁盘进行备份。备份成功后，在云备份界面，找到目标磁盘的备份，使用备...
规模增长30倍，客户增长50倍，腾讯云自研

腾讯云9月30日对外披露，腾讯云首款自研星星海服务器在云上的应用规模增长已经超...

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

推荐图文

计算机字符编码总结

迁移自建数据库至RDS实例 - 云服务器 ECS

开发者出海成功的奥秘是什么？有人找到“好搭档”就

数据分析在优化组织管理中发挥巨大作用

如何在 ASP.NET Core 中使用 LazyCache

全球应用加速删除源站 - API 文档

随机推荐

云计算离普通用户远吗？

私有网络请求结构 - API文档

2020年全球及中国云计算行业发展现状分析

WebRTC 传输安全机制第二话：深入显出 SR

网络安全的核心——服务器管理日志

WebAssembly 在 MOSN 中的实践 - 基础框

如何排查404/502/504错误？_Web应用防火

API 概览 - 弹性高性能计算E-HPC

如何同区域同可用区的复制一个磁盘？_云

规模增长30倍，客户增长50倍，腾讯云自研

关于我们