掌握这十大机器学习方法，你就是圈子里最靓的崽

发布时间：2019-06-15 11:34:20 所属栏目：建站来源：读芯术

导读：不论是在科研中还是在工业领域，机器学习都是个热门话题，新的机器学习方法也层出不穷。机器学习发展迅速又很复杂。对初学者而言，紧跟其发展无疑十分困难，即便是对专家们来说也非易事。图片来自Unsplash网站，chuttersnap摄为揭开机器学习的神秘面纱，

副标题[/!--empirenews.page--]

不论是在科研中还是在工业领域，机器学习都是个热门话题，新的机器学习方法也层出不穷。机器学习发展迅速又很复杂。对初学者而言，紧跟其发展无疑十分困难，即便是对专家们来说也非易事。

机器学习

图片来自Unsplash网站，chuttersnap摄

为揭开机器学习的神秘面纱，帮助新手学习该领域的核心概念，本文会介绍十种不同的机器学习方法，包括简单描述和可视化等，并一一举例说明。

机器学习算法(模型)是个表示某一问题(常为商业问题)所包含数据信息的数学表达式。设计算法是为了分析数据从而获取有用信息。比如，在线零售商想要预测下一季度的销售额时，就可能会用到机器学习算法，根据之前的销售额和其他相关数据来进行预测。同样，风车制造商可以监管重要的设备，他们给算法提供视频数据使其在训练之后能够识别设备上的裂缝。

本文介绍的十种机器学习方法可以让你对机器学习有一个整体的了解，帮助你打下相关的知识和技能基础：

回归
分类
聚类
降维
集成方法
神经网络与深度学习
迁移学习
强化学习
自然语言处理
词嵌入

最后，在介绍这些方法之前，还是先来区分一下监督学习和无监督学习这两种机器学习类别吧。

监督学习用于在已有数据的情况下进行预测或解释，即通过先前输入和输出的数据来预测基于新数据的输出。比如，监督机器学习技术可用来帮助某服务企业预测未来一个月订购该服务的新用户量。

相比之下，无监督机器学习是在不使用目标变量进行预测的情况下，对数据点进行关联和分组。换言之，它根据特征评估数据，并根据这些特征，将相似的数据聚集在一起。例如，无监督学习技术可用来帮助零售商对具有相似特征的产品进行分类，而且无需事先指定具体特征是什么。

1. 回归

回归是一种监督机器学习方法，在先前数据的基础上预测或解释特定数值。例如要想知道某房产的价值，可根据与之相似房产的定价来预测。

线性回归是最简单的回归方法，用直线方程(y = m * x + b)来模拟数据集。通过计算直线的位置和斜率得到具有许多数据对(x，y)的线性回归模型，在该直线上，所有数据点到它的距离之和最小。换言之，计算的是最接近数据中观测值的那条线的斜率(m)和y截距(b)。

接着再来看一些具体的线性回归例子。将建筑物的年龄、楼层数、面积(平方英尺)和墙上插入式设备的数量这些数据汇总在一起，用线性回归方法来预测该建筑物的耗能情况(以千瓦时为单位)。由于有多种输入值(年龄，面积等)，可以选择多变量线性回归方法，原理和简单的一元线性回归一样，但在这种情况下，由于有多个变量，最终创建出来的“线”是多维的。

下图显示了线性回归模型与建筑物实际能耗的吻合程度。如果已知某建筑物的各项特征(年龄、面积等)，但耗能情况未知，就可以用拟合线来对其进行估算。

注意，线性回归还可以用来估计各个因素对于最终耗能情况的影响程度。例如，有了公式，就可以确定建筑物的年龄、面积或高度是否为最重要的影响因素。

线性回归模型

用来估算建筑物能耗(以千瓦时为单位)的线性回归模型

回归技术有简单的(线性回归)，也有复杂的(正则化线性回归、多项式回归、决策树和随机森林回归、神经网络等)，你大可不必感到迷惑，可以先从简单的线性回归着手，掌握其中的技术，然后继续学习较复杂的类型。

2. 分类

分类是另一种监督机器学习方法，这一方法对某个类别值进行预测或解释。比如可以用分类的方法来预测线上顾客是否会购买某一产品。输出可分为是或否，即购买者或非购买者。但分类并不限于两个选择。例如，可通过分类来看某一图像中是否有汽车或卡车。在这种情况下，输出就有3个不同值，分别为1)图像包含汽车、2)图像包含卡车或3)图像既不包含汽车也不包含卡车。

逻辑回归是分类算法中最简单的一类，这听起来很像一个回归方法，其实不然。逻辑回归是基于一个或多个输入来估计某一事件发生概率的一种算法。

例如，逻辑回归可基于学生的两次考试分数来估计该生被某一大学录取的概率。由于估计值是概率，输出只能是介于0和1之间的数字，其中1表示完全确定。对该生而言，如果估计概率大于0.5，预测结果就是：他(她)能被录取，如果估计概率小于0.5，预测结果则为：他(她)不会被录取。

下图显示了先前学生的分数以及他们最终的录取结果。用逻辑回归可绘制出一条代表决策边界的线。

线性回归模型

逻辑回归决策边界线：他们能否被大学录取?

逻辑回归是一个线性模型，因此是新手学习分类方法入门的不错选择。随着不断的进步，就可以深入研究像决策树、随机森林、支持向量机和神经网络这些非线性分类了。

3. 聚类

聚类方法的目标是对具有相似特征的观察值进行分组或聚类，是一种无监督机器学习方法。聚类方法不借助输出信息进行训练，而是让算法定义输出。在这一方法中，只能使用可视化来检验解决方案的质量。

最流行的聚类方法是K均值聚类，其中“K”表示用户选择创建的簇的数量。(注意，选取K值时有多种技术可供选择，比如肘部法则。)

大体上，K均值聚类法对数据点的处理步骤包括：

随机选择数据中的K个中心。
将每个数据点分配给最接近的随机创建的中心。
重新计算每个簇的中心。
如果中心没有变化(或变化很小)，就结束此过程。否则，返回至第2步。(如果中心持续更改，为防止最终形成无限循环，要提前设置最大迭代次数。)

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

杭州网站优化的几个注	网站优化效果不好怎么
网站结构怎么优化？对	网站文章内容持续更新