加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

发布时间:2018-08-17 01:44:53 所属栏目:教程 来源:佚名
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 Kaggle作为公认的数据挖掘竞赛平台,有很多公开的优秀项目,而其中作为初学者入门的一个好的项目就是:泰坦尼克号生还者预测。 可能这个项目好多朋友也听说过,可能很多朋友也做过
副标题[/!--empirenews.page--] 技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战

Kaggle作为公认的数据挖掘竞赛平台,有很多公开的优秀项目,而其中作为初学者入门的一个好的项目就是:泰坦尼克号生还者预测。

可能这个项目好多朋友也听说过,可能很多朋友也做过。但是项目完成后,是否有很好的反思总结呢?很多朋友只是潦草的敷衍过去了,知道大概的套路了就没再去看。其实,一个再简单的项目,如果把它做好也能有巨大的收获。

博主开始做的时候,也是经过反复琢磨和尝试,并从最初的20%到最好的2%,期间学习了很多,不得不说这个项目让我很好的了解了数据挖掘。

本篇,博主将会从零开始介绍这个项目,教你如何一步一步的把这个项目做好。由于大部分星球的朋友们已经完成了分析部分的实战练习,因此将这部分内容拿出来进行简单的分享。

首先对这个项目进行一下介绍。

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

万变不离其宗,拿到数据首先粗率的观察。

将训练集和测试集进行合并,以便后续数据内容变换的统一处理。

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇
【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

合并后一共1309条数据,并可以看到:age,cabin,embarked,Fare四个特征有缺失值,其中cabin缺失比较严重。

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

异常值初始观察(主要观察一下最大与最小值):

  • Fare:船票价格平均值33.2,中位数14,平均值比中位数大很多,说明该特征分布是严重的右偏,又看到最大值512,所以512很可能是隐患的异常值。
  • Age:最小值为0.17,最大值为80,0.17是大概刚出生一个半月的意思,而80年龄有些过大,需要进一步排查。
  • SibSp与Parch:Sibsp最大为8,可能是异常,但又看到Parch最大值为9。这两个特征同时出现大的数值,第一放映是这个数值是有可能的,我们进步一观察。

结论:通过以上观察和分析,我们看到了一些可能的异常值,但是也不敢肯定。这需要我们进一步通过可视化来清楚的显示并结合对业务的理解来确定。

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

结论:

从上面各特征值的类型数量来看:

  • 一些比较少数量的特征如Pclass,Sex,SibSp,Embarked,Parch等可进行可视化分析。
  • 剩下特征如Name(每个人名字都不一样),或者Ticket和Cabin由于分类太多对于可视化不是太方便,后续对这些特征单独分析。

因此,先对上面5种容易的分类进的特征行可视化。

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

对于上面的定类和定序数据类型,我们分别可以观察到各特征值的分布情况,以及与目标变量之间的联系。

  • Sex: 对于女性而言,男性总人数虽多,但是获救率明显很低(先救妇女!!!);
  • Pclass: 社会等级为3的总人数最多(也就是大多数人都是普通老百姓),但是获救率非常低(社会价值高的人优先留下);
  • Embarked: 登陆港口S数量最多,但是获救率也是最低的,C港口获救率最高;
  • SibSp: 兄弟姐妹数量最低为0的人数最多,但是获救率最低,而为1的获救率相对较高,超过50%;
  • Parch: 情况基本同SibSp一样,后续可以考虑将二者合并;

就以上5个特征来看,Sex和Pclass两个特征是其中非常有影响的两个。

以上只是单独特征对是否生还的简单分析,但实际上对目标变量的影响是由多个因素造成的,而不只是单独的影响。为此,我们需要知道在某个特定条件下的特征的影响才更加能帮助我们分析:

  • 比如我们想看看Pclass是1的情况下,男性和女性生还概率有何不同;
  • 更具体的比如我们想看看Pclass是1且为male的情况下,Embarked特征的影响是什么样的;

以下是用FaceGrid进行的具体分析:

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

观察结果:

  • Pclass为1和2的时候,Q港口数量几乎为零,而Pclass3的Q港口人数甚至比C港口多。这说明社会等级与港口有关联,根据社会等级与港口的对应关系可推测S和C港口为高级港口,而Q港口为普通港口。
  • Pclass为2的港口中,男性与女性在S和C港口的数量分布呈现相反趋势,与其他Pclass等级截然不同,这说明Pclass2可能是社会中某个共性群体,这个群体多为女性,而男性很少。既然多为女性,且女性生还概率还大,可推测Pclass2的C港口的生还概率也很高。
【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

1. Age分布和特征分析

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

结论:

很明显看到,以上Survived与Not Survived特征分布的主要区别在0 ~15左右。小于15岁以下的乘客(也就是孩子)获救率非常高,而大于15岁的乘客分布无明显区别。

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

结论:

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读