通常在拿到一份数据进行相关的模型训练之前,我们需要进行数据清洗以便得到干净的数据。进一步需要找到与问题有关的特征信息,并把这些特征转换成特征矩阵的数值,这也就是机器学习实践中的重要步骤之一,特征工程。本系列文章将从数据特征的分布分析、对比分析、统计分析、贡献度分析(帕累托分析)、和特征的相关性分析来识别数据集整体上的一些重要性质。
本文目录
01、分布分析
理论介绍:分布分析是用来解释数据的分布类型和分布特征,显示其分布情况。所以可以对一开始拿到数据可以首先进行初步的分布分析。分布分析主要分成两种:
对定量数据的分布分析按照如下步骤进行:
对定性的数据分布分析:
Python分析结果:
参考房价定量分析
1.首先利用pandas读取数据并取前五条数据得到如下信息。
2.求参考总价的分组区间并在原始数据中添加一个新的字段“参考总价分组区间”。
3.计算每段参考总价的区间的频数、频率并绘制直方图。
房屋朝向定性分析
对不同房屋朝向占比可绘制一个饼图。
02、对比分析
理论介绍:对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。
对比分析主要分为以下两种形式:
绝对数比较
利用这组指标绝对数进行对比,从而寻找差异的一种方法。
相对数比较
它是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不用,相对数可以分为以下几种:结构相对数、比例相对数、动态相对数和空间相对数
Python分析结果:
绝对数比较案例:比如现在有某公司的A、B产品某月销量数据,这里我们可以对A、B产品的销量做绝对数对比。
相对数比较案例:
结构相对数:在分组基础上,各组总量指标与总体的总量指标对比,计算出各组数量在总量中所占比重。例如,30天内A、B产品的日销售额,由于 A、B产品销售额量级不同,计算出A、B产品每日销售额占该月各自总销售额对比。
比例相对数:比例相对数 = 总体中某一部分数值 / 总体中另一部分数值 。如 “基本建设投资额中工业、农业、教育投资的比例”、“男女比例”
空间相对数(横向):比如说同样的2017年北京和深圳膜拜单车使用量,空间是比较抽象的更多的是在时间相同的情况下,不同的元素的比较 。
动态相对数(纵向):将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度,如发展速度、增长速度等。例如求A产品的某月的定基增长速度额环比增长速度
03、统计分析
Python结果分析:
对某一组数据分析其集中趋势结果:
对某一组数据分析其离中趋势结果:
04、帕累托分析
理论介绍:帕累托分析又叫贡献度分析,原理是20/80定律,即80%的利润常常来自于20%的产品。一般来说投入产出,努力和报酬之间并不是绝对的线性关系,总有一些关键因素起着至关重要的作用,而帕累托分析就是找到影响事务的关键因素,分清主次。
Python代码结果分析:
例如现在你有一份餐厅的不同菜品的盈利数据,你想找到哪些菜对该菜厅的盈利贡献***。可按照如下步骤来实现贡献度分析:
05、相关性分析
理论介绍:相关性分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。可用相关系数r来衡量两个特征之间的相关性。
相关系数r的解读:
关于相关系数的计算有三种:
注意点:皮尔逊相关系数的计算是数据分布为正太分布,所以计算之前要先进行正态性检验。对于不服从正太分布变量的关联性可用斯皮尔曼相关系数来计算,也叫等级相关系数。
Python结果分析:
首先对数据进行正太性检验,利用scipy里面集成好的K-S检验方法。
2. 利用pandas里面集成好的相关系数计算方法。
总结:本文对数据特征的一些常用分析方法进行了系统介绍,并利用Python里面的科学计算库Numpy、Pandas、Scipy、Matplotlib实现了每一种分析方法的分析结果,并且将结果图形化显示出来。
本文转载自微信公众号Python编程时光(Cool-Python)。 1. 警告不是异常 你是不...
我在2007年开始学习CSS。是的,从那时起,我们已经走了很长的路! 在2021年,前端...
TOP云 (west.cn)5月10日最新消息,Donuts注册局近日在ICANN的一场私密竞拍中,...
与普通的IDC机房或服务器厂商相比,阿里云提供的云服务器ECS具有高可用性、安全...
点击订阅新品发布会 新产品、新版本、新技术、新功能、价格调整,评论在下方,下...
如今,以5G、大数据、AI以及云计算为代表的新互联网技术,纷纷走进抗击疫情最前...
Excel在过去、现在和未来都是一个无比优秀和天才的工具,无数虔诚的信徒将其奉为...
操作场景 本文以 云服务器 的操作系统为“Windows Server 2016 Standard 64bit”...
这五个组织使用了自然语言处理(NLP)来更好地服务他们的客户,自动化重复的任务,...
中央电视台《天气预报》栏目的气象先生宋英杰曾经有一段非常有意思的采访。他坦...