浅谈梯度下降法/Gradient descent

发布时间：2019-03-29 00:53:18 所属栏目：教程来源：360技术

导读：当今世界，深度学习应用已经渗透到了我们生活的方方面面，深度学习技术背后的核心问题是最优化(Optimization)。最优化是应用数学的一个分支，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。梯度下降法(G

先来看一幅图②

这幅图表示的是对一个目标函数寻找最优解的过程，图中锯齿状的路线就是寻优路线在二维平面上的投影。从这幅图我们可以看到，锯齿一开始比较大(跨越的距离比较大)，后来越来越小；这就像一个人走路迈的步子，一开始大，后来步子越迈越小。

这个函数的表达式是这样的：

它叫做Rosenbrock function(罗森布罗克函数)③，是个非凸函数，在最优化领域，它可以用作一个最优化算法的performance test函数。这个函数还有一个更好记也更滑稽的名字：banana function(香蕉函数)。

我们来看一看它在三维空间中的图形：

它的全局最优点位于一个长长的、狭窄的、抛物线形状的、扁平的“山谷”中。

找到“山谷”并不难，难的是收敛到全局最优解(在 (1,1) 处)。

正所谓：

我们再来看下面这个目标函数的寻优过程④：

和前面的Rosenbrock function一样，它的寻优过程也是“锯齿状”的。

它在三维空间中的图形是这样的：

总而言之就是：当目标函数的等值线接近于圆(球)时，下降较快；等值线类似于扁长的椭球时，一开始快，后来很慢。

5. 为什么“慢”?

从上面花花绿绿的图，我们看到了寻找最优解的过程有多么“艰辛”，但不能光看热闹，还要分析一下原因。

在最优化算法中，精确的line search满足一个一阶必要条件，即：梯度与方向的点积为零

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您