加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

缺失数据别怕!这里有份强大的初学者指南

发布时间:2019-08-20 06:52:57 所属栏目:教程 来源:读芯术
导读:实际上,数据科学家80%到90%的工作是数据清理,而这项工作的目的是为了执行其余10%的机器学习任务。没有什么比完成数据集分析后的收获更让人兴奋的了。如何减少清理数据的时间?如何为至关重要的10%的工作保留精力? 根据很多专业人士的经验,对数据清理涉及

在R中,MICE集提供多个插补。

  1. library(mice) 
  2. imp<-mice(diabetes, method="norm.predict", m=1) 
  3. data_imp<-complete(imp) 
  4. imp<-mice(diabetes, m=5) 
  5. fit<-with(data=imp, lm(y~x+z)) 
  6. combine<-pool(fit) 

MICE的缺点:

  • 不像其他估算方法一样具有理论依据
  • 数据的复杂性

处理缺失的数据是数据科学家工作的最重要部分之一。算法中拥有干净的数据意味着你的机器学习算法的性能会更好。在数据清理过程开始时,区分MCAR,MAR,MNAR是必不可少的。虽然有不同的方法来处理缺失的数据插补,但KNN和MICE仍然是处理连续和分类数据的最受欢迎的方法。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读