前言
在很多网站上,都会以表格的形式展示数据,而我们获取这种数据只需通过十几行爬虫代码就可以搞定,轻松搞定网页爬虫,实现高效办公
知识点:
第三方库:
开发环境:
这里就只展示部分代码了
爬虫代码
1.导入工具
- from urllib.parse import urlencode
- import requests
- import csv
- from bs4 import BeautifulSoup
- import pandas as pd
2.网页提取函数
- def get_one_page(i):
- paras = {
- 'reportTime': '2019-12-31',
- # 可以改报告日期,比如2018-6-30获得的就是该季度的信息
- 'pageNum': i # 页码
- }
- url = 'http://s.askci.com/stock/a/?' + urlencode(paras)
- response = requests.get(url, headers=headers)
- if response.status_code == 200:
- return response.text
3.提取表格数据
- def parse_one_page(html):
- tb = pd.read_html(html)[3]
- return tb
4.保存数据
- def save_csv():
- pass
- if __name__ == '__main__':
- html = get_one_page(1)
- parse_one_page(html)
运行代码,效果如下图
数据可视化代码
- ffrom pyecharts import options as opts
- from pyecharts.charts import Map
- from pyecharts.faker import Faker
- df = pd.read_csv('1.csv')
- data = [['北京',331], ['西藏',18], ['湖北',103], ['上海',298], ['天津',50], ['陕西',51], ['安徽',106], ['河北',58], ['贵州',29], ['河南',79], ['山东',206], ['广东',603], ['江西',41], ['江苏',420], ['浙江',443], ['湖南',105], ['黑龙江',37], ['辽宁',78], ['福建',134], ['四川',125], ['重庆',50], ['广西',38], ['新疆',54], ['云南',37], ['山西',38], ['宁夏',14], ['海南',30], ['甘肃',33], ['吉林',42], ['内蒙古',25], ['青海',12]]
- c = (
- Map()
- .add("上市公司数量 ", data, "china")
- .set_global_opts(
- title_opts=opts.TitleOpts(title="上市公司数量分布"),
- visualmap_opts=opts.VisualMapOpts(max_=700),
- )
- )
- c.render_notebook()
最后运行代码,效果如下图
阿里巴巴、腾讯、支付宝、网易、IBM、谷歌、京东、 百度、滴滴等一线互联网公司...
【51CTO.com快译】不知道您是否听说过软件架构师最讨厌意大利面这个梗?它是指软...
【51CTO.com快译】 数据分析是对数据进行判断、细化、更改和建模的过程,目的是...
操作场景 您可以删除不需要的私有镜像。 删除私有镜像后,将无法找回,请谨慎操...
公司介绍 长沙营智信息技术有限公司旗下易撰网,2017年10月份上线以来,基于数据...
大家在开发Python的过程中,一定会遇到很多反斜杠的问题,很多人被反斜杠的数量...
大数据市场如今正在呈爆炸式增长。根据调研机构Markets and Markets公司的调查,...
案例背景 永安稻香小镇的体验式数字农业基地是余杭街道依托“阿里以西10分钟”的...
本月DataWorks产品月刊为您带来 产品活动 1.参与阿里云DataWorks问卷调研 (Aliyu...
人脸识别 是目前商业应用最成熟、最广泛的人工智能技术之一,成为开发者、企业接...