关于机器学习实战，那些教科书里学不到的12个“民间智慧”

发布时间：2019-05-14 13:13:16 所属栏目：建站来源：towardsml 编译：刘佳玮、王缘缘、Walker 机器

导读：大数据文摘出品来源：towardsml 编译：刘佳玮、王缘缘、Walker 机器学习算法被认为能够通过学习数据来弄清楚如何执行重要任务。这意味着数据量越大，这些算法就可以解决更加复杂的问题。然而，开发成功的机器学习应用程序需要一定的民间技巧，这在教科书

机器学习论文充满理论保证。我们应该对这些保证做些什么?归纳法传统上与演绎法形成对比：在演绎法中，你可以保证结论是正确的，在归纳法中就很难说。最近几十年的一个重要进展是我们认识到可以做归纳结果正确性的保证，前提是如果我们愿意接受概率保证。

机器学习

例如，我们可以保证，给定一个足够大的训练集，在很大的概率上，学习器会返回一个成功泛化的假设或无法找到一个保持正确的假设。

另一种常见的理论保证是给定无穷的数据，学习器可以保证输出正确的分类器。在实践中，由于我们之前讨论过的偏置-方差的权衡，如果在无穷数据情况下，学习器A比学习器B好，那么在有限数据的情况下B通常比A好。

理论保证在机器学习中的主要作用不是作为实际决策的标准，而是作为理解算法设计的起点。

10. 简单并不意味着准确

在机器学习中，奥卡姆剃刀原理通常被认为是给定两个具有相同训练误差的分类器，两者中较简单的可能具有较低的测试误差。

机器学习

但事实并非如此，我们之前看到了一个反例：即使在训练误差达到零之后，通过添加分类器，一个boosted ensemble的泛化误差也会继续改善。与直觉相反，模型的参数数量与过拟合之间没有必要的联系。也就是说在机器学习中，一个更简单的假设仍然应该是首选，因为简单本身就是一种优势，而不是因为它意味着准确性。

11. 可表示不等于可学习

仅仅因为可以表示函数并不意味着可以学习它。例如，标准决策树学习器无法学习叶子多于训练样例的树木。

给定有限的数据、时间和内存，标准学习器只能学习所有可能功能的一小部分，并且这些子集对于不同表示的学习器是不同的。因此，这里的关键是尝试不同的学习器(并可能将它们结合起来)是值得的。

12. 相关性不意味着因果性

我们都听说过相关性并不意味着因果性，但仍然有人常常倾向于认为相关性意味着因果关系。

机器学习

通常，学习预测模型的目标是将它们用作行动指南。如果我们发现用户在超市经常买了啤酒就会买尿不湿，那么也许把啤酒放在尿不湿部分旁边会增加销量。但除非我们进行真实的实验，否则很难判断这是否属实。相关性标志着一个潜在的因果关系，我们可以将其作为进一步研究的方向，而非我们的最终结论。

结论

跟其他学科一样，机器学习有很多“民间智慧”，很难获得但对成功至关重要。感谢Domingos教授今天给我们传授了一些智慧。希望这个攻略对你有帮助。可以在下面评论区留言，说出你的想法哦～

杭州网站优化的几个注	网站优化效果不好怎么
网站结构怎么优化？对	网站文章内容持续更新