前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不会写Python代码如何抓取豆瓣电影 Top 250

不会写Python代码如何抓取豆瓣电影 Top 250

作者头像
苏生不惑
发布2019-10-24 23:14:03
1.7K0
发布2019-10-24 23:14:03
举报
文章被收录于专栏:苏生不惑苏生不惑

说到爬虫,大多数人会想到用Python来做,毕竟简单好用,比如想抓取豆瓣电影top250 的所有电影数据。

简单的代码如下:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
    print(link.text)

这样就可以输出第一页的所有电影标题,第二页的数据还需要代码处理。

但对于非程序员还是有难度的,有没有不用写代码就能抓取数据的爬虫工具呢,下面介绍几个非常实用的爬虫工具,这里还是以爬取豆瓣电影top250为例。

爬山虎采集器

爬山虎采集器是一款简单易用的网页数据采集工具,通过智能算法+可视化界面,随心所欲抓取自己想到的数据。先在官网 http://www.51pashanhu.com/download 下载软件,现在我下载的版本是 v2.4.7.0 ,它已经内置了几个采集设置了,比如百度搜索,淘宝商品等。

先输入要采集的网址https://movie.douban.com/top250

点下一步,因为有10页,因此要选择 自动识别分页

然后保存并采集

采集结果:

默认只能导出到txt,需要升级会员才能导出其他格式。

成功导出250条数据。

txt文件内容

后羿采集器

后羿采集器是一款面向零基础用户的,不限制采集和导出采集结果数量,免费不要积分的采集器,只需要输入网址就能智能识别采集结果,简直小白神器!在官网 http://www.houyicaiji.com/ 下载好软件

输入网址https://movie.douban.com/top250,它会自动分页加载。

点击开始采集

采集完成

这个相比上面的爬山虎采集器可以导出 excel csv text 等格式。

我这里导出到excel,所有电影标题,链接,封面图片,导演,评价人数都抓取下来了。ps: 我收藏了部分top 250 的电影,可以回复对应电影名试试。

八爪鱼采集器

八爪鱼数据采集器是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取,简易采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。软件下载地址 https://www.bazhuayu.com/download ,这个我就不演示了,另外它还有英文版 https://www.octoparse.com/download

集搜客

号称把互联网装进表格和数据库 ,网址 https://www.gooseeker.com/

Web Scraper

Web Scraper 是一款免费的、适用于任何人(没有任何编程基础)的爬虫工具。操作简单,只需鼠标点击和简单的配置,就能快速的爬取 Web 端的数据。网址 https://webscraper.io,需要先下载Chrome扩展 https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn 如果上不了谷歌在公众号回复 谷歌获取扩展。

具体使用教程可以参考明白大佬的文章https://www.jianshu.com/p/cd5124ac0871,作者还专门开了一门课程《不用写代码的爬虫课》。

有了上面这些工具,不会写代码的你也能轻松抓取你想要的公开数据。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-23,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 苏生不惑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬山虎采集器
  • 后羿采集器
  • 八爪鱼采集器
  • 集搜客
  • Web Scraper
相关产品与服务
智能识别
腾讯云智能识别(Intelligent Identification,II)基于腾讯各实验室最新研究成果,为您提供视频内容的全方位识别,支持识别视频内的人物、语音、文字以及帧标签,对视频进行多维度结构化分析。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com