缺失数据别怕！这里有份强大的初学者指南

发布时间：2019-08-20 06:52:57 所属栏目：教程来源：读芯术

导读：实际上，数据科学家80%到90%的工作是数据清理，而这项工作的目的是为了执行其余10%的机器学习任务。没有什么比完成数据集分析后的收获更让人兴奋的了。如何减少清理数据的时间?如何为至关重要的10%的工作保留精力? 根据很多专业人士的经验，对数据清理涉及

在R中，MICE集提供多个插补。

library(mice) 
imp<-mice(diabetes, method="norm.predict", m=1) 
data_imp<-complete(imp) 
imp<-mice(diabetes, m=5) 
fit<-with(data=imp, lm(y~x+z)) 
combine<-pool(fit)

MICE的缺点：

不像其他估算方法一样具有理论依据
数据的复杂性

处理缺失的数据是数据科学家工作的最重要部分之一。算法中拥有干净的数据意味着你的机器学习算法的性能会更好。在数据清理过程开始时，区分MCAR，MAR，MNAR是必不可少的。虽然有不同的方法来处理缺失的数据插补，但KNN和MICE仍然是处理连续和分类数据的最受欢迎的方法。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您