加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

没有完美的数据插补法,只有最适合的

发布时间:2018-10-24 20:42:10 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。 我在数据清理与探索性分析中遇到的最常见问题之一

根据数据类型的不同,距离度量也不尽相同:

  • 连续数据:最常用的距离度量有欧氏距离,曼哈顿距离以及余弦距离。
  • 分类数据:汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值,如果两个数据点的值不同,则距离加一。汉明距离实际上与属性间不同取值的数量一致。

KNN算法最吸引人的特点之一在于,它易于理解也易于实现。其非参数的特性在某些数据非常“不寻常”的情况下非常有优势。

KNN算法的一个明显缺点是,在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。此外,在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。

  1. library(DMwR) 
  2. knnOutput <- knnImputation(mydata) 
  3.  
  4. In python 
  5. from fancyimpute import KNN     
  6.  
  7. # Use 5 nearest rows which have a feature to fill in each row's missing features 
  8. knnOutput = KNN(k=5).complete(mydata) 

在上述方法中,多重插补与KNN最为广泛使用,而由于前者更为简单,因此其通常更受青睐。

相关报道:https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4

【本文是51CTO专栏机构大数据文摘的原创文章,微信公众号“大数据文摘( id: BigDataDigest)”】

     大数据文摘二维码

戳这里,看该作者更多好文

【编辑推荐】

  1. 敢啃“硬骨头”,开源分布式数据库TiDB如何炼成?
  2. 三行Python代码,让数据预处理速度提高2到6倍
  3. Facebook遭黑客攻击,5千万用户数据面临风险
  4. 微软的数据湖也凉凉了
  5. 如果是个穷光蛋:如何从零开始学习成为一个数据科学家?
【责任编辑:赵宁宁 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读