没有完美的数据插补法，只有最适合的

发布时间：2018-10-24 20:42:10 所属栏目：教程来源：大数据文摘

导读：大数据文摘出品编译：张秋玥、胡笳、夏雅薇数据缺失是数据科学家在处理数据时经常遇到的问题，本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法，但总有一款更适合当下情况。我在数据清理与探索性分析中遇到的最常见问题之一

能够用于数据插补的机器学习方法有很多，比如XGBoost与Random Forest，但在这里我们讨论KNN方法，因为它被广泛应用。在本方法中，我们根据某种距离度量选择出k个“邻居”，他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量)，以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。