Kaggle作为公认的数据挖掘竞赛平台,有很多公开的优秀项目,而其中作为初学者入门的一个好的项目就是:泰坦尼克号生还者预测。
可能这个项目好多朋友也听说过,可能很多朋友也做过。但是项目完成后,是否有很好的反思总结呢?很多朋友只是潦草的敷衍过去了,知道大概的套路了就没再去看。其实,一个再简单的项目,如果把它做好也能有巨大的收获。
博主开始做的时候,也是经过反复琢磨和尝试,并从最初的20%到***的2%,期间学习了很多,不得不说这个项目让我很好的了解了数据挖掘。
本篇,博主将会从零开始介绍这个项目,教你如何一步一步的把这个项目做好。由于大部分星球的朋友们已经完成了分析部分的实战练习,因此将这部分内容拿出来进行简单的分享。
首先对这个项目进行一下介绍。
万变不离其宗,拿到数据首先粗率的观察。
将训练集和测试集进行合并,以便后续数据内容变换的统一处理。
合并后一共1309条数据,并可以看到:age,cabin,embarked,Fare四个特征有缺失值,其中cabin缺失比较严重。
异常值初始观察(主要观察一下***与最小值):
结论:通过以上观察和分析,我们看到了一些可能的异常值,但是也不敢肯定。这需要我们进一步通过可视化来清楚的显示并结合对业务的理解来确定。
结论:
从上面各特征值的类型数量来看:
因此,先对上面5种容易的分类进的特征行可视化。
对于上面的定类和定序数据类型,我们分别可以观察到各特征值的分布情况,以及与目标变量之间的联系。
就以上5个特征来看,Sex和Pclass两个特征是其中非常有影响的两个。
以上只是单独特征对是否生还的简单分析,但实际上对目标变量的影响是由多个因素造成的,而不只是单独的影响。为此,我们需要知道在某个特定条件下的特征的影响才更加能帮助我们分析:
以下是用FaceGrid进行的具体分析:
观察结果:
1. Age分布和特征分析
结论:
很明显看到,以上Survived与Not Survived特征分布的主要区别在0 ~15左右。小于15岁以下的乘客(也就是孩子)获救率非常高,而大于15岁的乘客分布无明显区别。
结论:
不同Pclass下的年龄分布也不同,三个分布的中位数大小按Pclass1 Pclass2 Pclass3排列。这也符合实际情况,Pclass1的乘客是社会上的拥有一定财富和地位的成功人士,年龄比较大,而Pclass3的人数最多,因为大多数人还都是普通人(有钱人毕竟少数),并且这些人多是年轻人,年龄在20-30之间。
结论:
从散点图来分析:
印证了那个原则:妇女和孩子优先营救。
2. Fare分布和特征分析
结论:
观察到Pclass1相对于2和3的Fare比较高,因为地位高,财富多。但是Pclass1中有几个大于500的异常值存在,看一下这些异常数据。
这些异常值中,有两个名字一样的Cardeza,又看到Parch都为1,SibSp都为0,Fare,Cabin,Embarked,Ticket都一样,可推测二人是夫妻。另外两个人的Embarked,Ticket,Fare也都一样,这说明这个大于500的Fare可能不是异常值。后面我们会对这些进行特征工程来特殊对待。
这是上述7个特征的相互关联图的汇总,对角线为特征自身的kde分布。对于不方便可视化的Name,Cabin,Ticket将在特征工程中进一步进行处理并挖掘这些数据中到底有什么信息是非常有价值的。
12月25日消息,IBM日前宣布,该公司已收购了芬兰云咨询服务提供商Nordcloud,但...
数据科学家是21世纪的热门工作。工欲善其事必先利其器。数据分析工具何其多,究...
相信很多Java从业者在熟悉了微服务开发后,自以为用 Spring Cloud 已经成功打造...
0. 前言 在我自己早期学习编程的时候,对接口存在的意义实在困惑,我自己乱写代...
云服务器 性能怎么样?整体来说, 云服务器 的性能是优于 虚拟主机 的, 云计算 ...
文章开始,先聊一聊卡顿与ANR的关系:产生卡顿的根本原因是UI线程不能够及时的进...
作为开发人员,我们每天都有很多任务要做,我们迫切地需要一些工具来使我们的工...
本文转载自微信公众号「云原生实验室」,作者米开朗基杨。转载本文请联系云原生...
免费云服务器 试用一年?一年太长了。市面上的确有一些服务器是支持免费试用的,...
一个小故事 周末12点的闹钟在回龙观均价3000的出租屋急促的响起 程序员小A慵懒的...