【Kaggle入门级竞赛top5%排名经验分享】— 分析篇
技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战
Kaggle作为公认的数据挖掘竞赛平台,有很多公开的优秀项目,而其中作为初学者入门的一个好的项目就是:泰坦尼克号生还者预测。 可能这个项目好多朋友也听说过,可能很多朋友也做过。但是项目完成后,是否有很好的反思总结呢?很多朋友只是潦草的敷衍过去了,知道大概的套路了就没再去看。其实,一个再简单的项目,如果把它做好也能有巨大的收获。 博主开始做的时候,也是经过反复琢磨和尝试,并从最初的20%到最好的2%,期间学习了很多,不得不说这个项目让我很好的了解了数据挖掘。 本篇,博主将会从零开始介绍这个项目,教你如何一步一步的把这个项目做好。由于大部分星球的朋友们已经完成了分析部分的实战练习,因此将这部分内容拿出来进行简单的分享。 首先对这个项目进行一下介绍。 ![]() 万变不离其宗,拿到数据首先粗率的观察。 将训练集和测试集进行合并,以便后续数据内容变换的统一处理。 ![]() ![]() 合并后一共1309条数据,并可以看到:age,cabin,embarked,Fare四个特征有缺失值,其中cabin缺失比较严重。 ![]() 异常值初始观察(主要观察一下最大与最小值):
结论:通过以上观察和分析,我们看到了一些可能的异常值,但是也不敢肯定。这需要我们进一步通过可视化来清楚的显示并结合对业务的理解来确定。 ![]() 结论: 从上面各特征值的类型数量来看:
因此,先对上面5种容易的分类进的特征行可视化。 ![]() 对于上面的定类和定序数据类型,我们分别可以观察到各特征值的分布情况,以及与目标变量之间的联系。
就以上5个特征来看,Sex和Pclass两个特征是其中非常有影响的两个。 以上只是单独特征对是否生还的简单分析,但实际上对目标变量的影响是由多个因素造成的,而不只是单独的影响。为此,我们需要知道在某个特定条件下的特征的影响才更加能帮助我们分析:
以下是用FaceGrid进行的具体分析: ![]() 观察结果:
![]() 1. Age分布和特征分析 ![]() 结论: 很明显看到,以上Survived与Not Survived特征分布的主要区别在0 ~15左右。小于15岁以下的乘客(也就是孩子)获救率非常高,而大于15岁的乘客分布无明显区别。 ![]() 结论: 【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。 |
-
最近升级了x2.0的补丁,发现普通用户在下载附件的时候...[详细]
-
编程之家 jb51.cc 很多用户在搬家或者重新安装论坛的...[详细]
-
本教程讲解如何把本地的数据迁移到虚拟空间,以迁移 U...[详细]
-
我的是虚拟空间,win 2003 SP服务器,尝试了论坛上提...[详细]
-
本教程进行了一些规范设定,主题列表一律用commtopics...[详细]
-
编程之家 jb51.cc 此文谨献给新手,请高手飘过,discuz...[详细]
-
编程之家 jb51.cc 问题: besttopic这个,我预览。没...[详细]
-
1.开启防采集功能:参数设置-》信息设置 2.增加随机...[详细]
-
后台密码忘记拉,怎么办? 5.0及以前版本:用phpmyadm...[详细]
-
碎片是门户网站必备的功能之一。下面我们来说明一下门...[详细]