常见的数据可视化库有:
但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做
在本文我们可以学到用pandas做
准备工作
如果你之前没有学过pandas和matpltolib,我们先安装好这几个库
- !pip3 install numpy!pip3 install pandas!pip3 install matplotlib
已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子
- #jupyter notebook中需要加这行代码%matplotlib inlineimport
- matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天
- 气数据df = pd.read_csv('data/london2018.csv')df
plot最简单的图
选择Month作为横坐标,Tmax作为纵坐标,绘图。
大家注意下面两种写法
- #写法1df.plot(x='Month', y='Tmax')plt.show()
上面的图就是折线图,折线图语法有三种
- df.plot(x='Month', y='Tmax')
- df.plot(x='Month', y='Tmax', kind='line')
- df.plot.line(x='Month', y='Tmax')
- df.plot.line(x='Month', y='Tmax')plt.show()
- #grid绘制格线df.plot(x='Month', y='Tmax', kind='line',
- grid=True)plt.show()
多个y值
上面的折线图中只有一条线, 如何将多个y绘制到一个图中
比如Tmax, Tmin
- df.plot(x='Month', y=['Tmax', 'Tmin'])plt.show()
条形图
- df.plot(x='Month', y='Rain', kind='bar')#同样还可以这样
- 画#df.plot.bar(x='Month', y='Rain')plt.show()
水平条形图
bar环卫barh,就可以将条形图变为水平条形图
- df.plot(x='Month', y='Rain', kind='barh')#同样还可以这
- 样画#df.plot.bar(x='Month', y='Rain')plt.show()
多个变量的条形图
- df.plot(kind='bar', x = 'Month', y=['Tmax', 'Tmin'])plt.show()
散点图
- df.plot(kind='scatter', x = 'Month', y = 'Sun')plt.show()
饼形图
- df.plot(kind='pie', y='Sun')plt.show()
上图绘制有两个小问题:
- df.index =
- ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','D
- ec']df.plot(kind='pie', y = 'Sun', legend=False)plt.show()
更多数据
一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据
- import pandas as pddf2 = pd.read_csv('data/londonweather.csv')df2.head()
- df2.Rain.describe()
- count 748.000000mean 50.408957std 29.721493min
- 0.30000025% 27.80000050% 46.10000075%
- 68.800000max 174.800000Name: Rain, dtype: float64
上面一共有748条记录, 即62年的记录。
箱型图
- df2.plot.box(y='Rain')#df2.plot(y='Rain', kind='box')plt.show()
直方图
- df2.plot(y='Rain', kind='hist')#df2.plot.hist(y='Rain')plt.show()
纵坐标的刻度可以通过bins设置
- df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175,
- 200])#df2.plot.hist(y='Rain')plt.show()
多图并存
- df.plot(kind='line', y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个
- 变量可视化 subplots=True, #多子图并存 layout=(2,
- 2), #子图排列2行2列 figsize=(20, 10)) #图布的尺寸plt.show()
- df.plot(kind='bar', y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变
- 量可视化 subplots=True, #多子图并存 layout=(2, 2),
- #子图排列2行2列 figsize=(20, 10)) #图布的尺寸plt.show()
加标题
给可视化起个标题
- df.plot(kind='bar', y=['Tmax', 'Tmin'], #2个变量可视化
- subplots=True, #多子图并存 layout=(1, 2), #子图排列1
- 行2列 figsize=(20, 5),#图布的尺寸 title='The Weather
- of London') #标题plt.show()
保存结果
可视化的结果可以存储为图片文件
- df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='Pie of Weather in London')plt.savefig('img/pie.png')plt.show()
df.plot更多参数
df.plot(x, y, kind, figsize, title, grid, legend, style)
- import pandas as pdhelp(pd.DataFrame.plot)
一、数据中台是真的热 在2018年之前可能只有一少部分人在谈中台,从2018年下半年...
为了使伸缩组自动加入的实例自动部署应用,您需要创建私有镜像,确保该镜像上有...
最近,在为 Coco 优化分层架构之时,我陷入了各种决策困难之中。所以我通过不断...
游戏市场的热度已经不言而喻,随着民众生活水平的提升,大家对于精神娱乐生活的...
来源 | 阿里飞天CIO学堂微信公众号 金融数字化转型过程中,市场的细微变化,客户...
一、背景 ? 我们大部分人的编程习惯都是线性编程,所谓线性编程就是一个请求涉及...
本文转载自公众号读芯术(ID:AI_Discovery) 如果你即将要面临大型科技公司的技术...
计算的下一步发展是什么,将如何影响组织的战略?专家预测了边缘计算在2021年的发...
开源 RPC 框架有哪些呢?一类是跟某种特定语言平台绑定的,另一类是与语言无关即...
与普通的IDC机房或服务器厂商相比,阿里云提供的云服务器ECS具有高可用性、安全...