没有完美的数据插补法，只有最适合的

发布时间：2018-10-24 20:42:10 所属栏目：教程来源：大数据文摘

导读：大数据文摘出品编译：张秋玥、胡笳、夏雅薇数据缺失是数据科学家在处理数据时经常遇到的问题，本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法，但总有一款更适合当下情况。我在数据清理与探索性分析中遇到的最常见问题之一

根据数据类型的不同，距离度量也不尽相同：

连续数据：最常用的距离度量有欧氏距离，曼哈顿距离以及余弦距离。
分类数据：汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值，如果两个数据点的值不同，则距离加一。汉明距离实际上与属性间不同取值的数量一致。

KNN算法最吸引人的特点之一在于，它易于理解也易于实现。其非参数的特性在某些数据非常“不寻常”的情况下非常有优势。

KNN算法的一个明显缺点是，在分析大型数据集时会变得非常耗时，因为它会在整个数据集中搜索相似数据点。此外，在高维数据集中，最近与最远邻居之间的差别非常小，因此KNN的准确性会降低。

library(DMwR) 
knnOutput <- knnImputation(mydata) 
 
In python 
from fancyimpute import KNN     
 
# Use 5 nearest rows which have a feature to fill in each row's missing features 
knnOutput = KNN(k=5).complete(mydata)

在上述方法中，多重插补与KNN最为广泛使用，而由于前者更为简单，因此其通常更受青睐。

相关报道：https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4

【本文是51CTO专栏机构大数据文摘的原创文章，微信公众号“大数据文摘（ id: BigDataDigest）”】

大数据文摘二维码

戳这里，看该作者更多好文

【编辑推荐】

敢啃“硬骨头”，开源分布式数据库TiDB如何炼成？
三行Python代码，让数据预处理速度提高2到6倍
Facebook遭黑客攻击，5千万用户数据面临风险
微软的数据湖也凉凉了
如果是个穷光蛋：如何从零开始学习成为一个数据科学家？

【责任编辑：赵宁宁 TEL：（010）68476606】
点赞 0

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您