前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >知乎爬取的一个思路 | 评测一款工具:想要收藏知乎的文章,想要采集知乎大v的文章... ...

知乎爬取的一个思路 | 评测一款工具:想要收藏知乎的文章,想要采集知乎大v的文章... ...

作者头像
富泰科
发布2022-11-11 19:15:11
9890
发布2022-11-11 19:15:11
举报
文章被收录于专栏:数据爬取数据爬取

据软件网站介绍,该软件可以实现对 知乎文章采集及图文下载(可下载专栏列表、文章、回答列表、单个回答、视频列表等,用于将相应的链接放在指定文本当中运行软件即可下载,下载下来的图文效果同网站。

图片
图片

也就是说可以大V主页目录下这些分类的文章视频等全部能下载。

那么事实是否是这样呢?我们下面来测试一下。

我们先来看一下,这个软件的介绍(B站直达):

https://www.bilibili.com/video/BV1pF411a7N8?spm_id_from=333.999.0.0

然后,我们将软件下载下来,软件是绿色版本,下载解压后运行即可。

我们来启动:

图片
图片

Zhihu文章采集助手v2.20-全功能版 软件界面

软件说可以自动识别并采集的链接对象

软件的界面很简单,看了一下使用提示,一目了然,然后我们把相关的链接放到软件目录下,链接我们放置了不同频道(有单个问答、专栏链接、专栏下的视频列表链接等)的,以测试其兼容性。看是否可以自动识别,并能采集下载。

我们本次测试的链接:

我们看软件能自动识别不同的链接,并对相应的链接进行自动下载。

图片
图片

下载的界面

下载大v回答文章的界面在下载大v回答文章的时候,我们发现软件启动了浏览器,同时浏览器的页面会自动进行翻页操作。还是挺神奇的。一会就下载好了,然后我们按提示到软件目录的html_files查看下载的的内容。

图片
图片

这是下载好的文章列表

我们打开其中一篇,看到图文排版都很OK

每篇文章都在结尾处注明了文章来源,以告知版权来源

可以看到,这款软件还是很好的实现了对于知乎不同页面复杂的页面元素的兼容,并能将网站上不必要的js以及不相关的信息菜单等进行了去除。只保留了纯净的内容信息,并进行了很好的排版,非常适合我们进行收藏及阅读。

而且目录下还会自动将大v的专栏等进行分类存放,而且命名也以日期再加标题的方式命名,直观明了。

按序命名及存放

图片
图片

图文还会同步下载到本地,以防止网上链接失效

视频也一样同步下载到本地

测试下来,我们发现这款工具使用上极其的傻瓜,基本上没有什么上手的难度,虽然软件未做GUI界面,但胜在也没有什么地方需要去动手操作。软件的功能还是很强大的,能够支持知乎不同链接的识别并正确下载。更为强大的是这个下载下来的版面格式非常符合我们阅读的版面要求,而且文中的图片和视频也都同步下载到本地,可以说是很贴心的功能了。因为有很多大v的文章失效或者删除是时有发生的。

文章来源:想要收藏知乎的文章,想要采集知乎大v的文章,给大家分享一个这款专门采集与下载的工具 (qq.com)

本文系转载,前往查看

如有侵权,请联系?cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系?cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com