加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

机器学习物语(2):大数定理军团

发布时间:2021-01-26 05:29:09 所属栏目:大数据 来源:网络整理
导读:机器学习理论帝国崛起,大数定理军团功不可没,称之为军团毫不夸张,在前军先锋强大数定理和副将弱大数定理后面,是铠甲上刻着“Concentration of Measure”的古老印记的战士们,不妨暂且忽略他们之间乱七八糟的“血缘”关系,而罗列一些名字:Chebyshev 不

其中? ?是和? ?独立同分布的随机变量。

注意这里要求? ?是有界的,不妨具体到二分类和 0-1 loss 问题,注意 0-1 loss? ?只能取 0 和 1 两个值,因此随机变量? ?是有界的(? ?),于是可以用 Hoeffding 不等式,得到以? ?的概率,有

可见,我们对置信度要求越高( ?越接近 0 ),不等式右边的值就越大,因此 bound 就越松,不过随着? ?的增大,我们可以得到越来越好的 bound 。用不等式的好处是,我们有明确的数值可以参考,比如,用 1000 个点的 sample ,我们可以以 99% 的概率保证对期望? 的估计误差不超过 0.05 ,虽然这个 bound 不一定 tight ,也就是说,实际结果可能比这里估计的还要好得多,但是至少给了我们一个很“实在”的感觉。

但是有一个问题,从刚才开始我们一直就强调这里的结果是对于某个固定的? ?成立的,但是学习的过程是在整个函数空间? ?中进行的,我们需要保证收敛性在? ?一致成立,前面关于? ?的不等式右边的上确界正是明确了这个要求。注意,即便对于任意? ?都满足收敛性,也不能保证所有? ?一致收敛,作为一个可能不是那么形象的示意图:

机器学习物语(2):大数定理军团

图中横坐标表示函数空间? ?,红颜色的线表示 Risk ,而蓝色的线表示某个具有? ?个数据点的训练数据? ?对应的 Empirical Risk 。对于某个固定的? ?,随着? ?的增大, ?和? ?直接的距离逐渐趋向于零。但是对于任意固定的? ?,如果? ?足够“大”的话,就可以找到? ?使得? ?和? ?直接相差很大。没有一致收敛的话,就无法保证蓝线的最小值对应的? ?收敛到红线的最小值对应的? ?了。

让我们明确一下目的,之前通过 Hoeffding 不等式,我们得出了? ?的一个 bound ,现在我们需要一个一致的 bound ,也就是说,针对? 的 bound 。这个时候我们又得再为我们的“午餐”支付额外的费用了:为了得到一致收敛性,我们不得不限制? ?的大小。上一次我们曾经举了一个很 trivial 的例子,在? ?是所有的从? 到? ?的函数这么巨大无比的一个空间的情况下,我们可以找到使得 Empirical Risk 最小化(等于零)的解? ?,然而? ?几乎完全没有任何预测能力,其真实 Risk 甚至可以被构造得任意大(可以依赖于未知的? ?来构造,因为我们只是要证明存在性,而不是要进行学习过程,所以可以利用未知的量)。这个例子说明,当函数空间过“大”时,一致收敛是非常困难的。

最简单的情况就是? ?:函数空间只有一个元素的情况,这个时候我们什么都不用干,原始的 Hoeffding 不等式和大数定理已经足够了。不过如果? ?只有一个元素,那也不用做什么 learning 了……接下来让我们考虑稍微不那么 trivial 一点的情况, ?。?

:p

记? ?、 ?分别是? ?和? ?对应的随机变量,并设他们都有界: ?。则我们有

n?Eζ|>?})≤2×2exp(?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读