人类看见形状，AI看见纹理：从计算机视觉分类失败谈起

发布时间：2019-07-18 16:09:39 所属栏目：建站来源：Jordana Cepelewicz

导读：研究人员们惊讶地发现，深度学习视觉算法之所以经常在图像分类时遭遇挑战，是因为它们主要从纹理而非形状当中提取判断线索。在我们观察一张猫的照片时，往往能够很快认出这是橘猫还是虎斑猫此外，图像是不是黑白、是否存在斑点、是否存在磨损以及褪色等等

目前的深度学习方法可以将纹理等局部特征整合至更多全局模式当中。Kriegeskorte指出，例如在谈到形状时，“论文当中提出了令人惊讶、但又非常引人注目的证明，即虽然架构能够关注形状，但如果仅仅进行训练（对标准图像进行分类），那么神经网络不会自动提出形状这一概念。”

Geirhos希望看到当团队强迫这些神经模型忽略纹理因素时，会发生怎样的结果。该团队采用传统上用于训练分类算法的图像，并以不同的样式对图像加以“绘制”，从而在根本上剥离出有用的纹理信息。当他们在新图像上重新训练每套深度学习模型时，这些系统开始逐步关注更大、更为全局的模式，同时也表现出更类似于人类的形状偏好。

在采取这种方式时，算法能够更好地分辨包含噪音干扰的图像，甚至无需训练即可识别出其中的内容。Geirhos表示，“基于形状的网络能够提供更强大的识别功能。这让我们意识到，对于特定任务，其实是存在「正确的偏见」这一概念的。以我们的研究为例，形状偏见能够把视觉识别算法推广到更多新颖的场景当中。”

研究还暗示，人类有可能也会自然地产生这种偏见；因为对于前所未有或者干扰因素较多的情况，形状是一种更为健壮的指标，能够帮助我们更好地定义自己看到的内容。人类生活在一个三维世界当中，很多物体在不同条件、不同角度之下都会呈现出不同的状态。而我们的其它感官，例如触觉，可以根据需要完善物体识别能力。因此，我们的固有思维就认定形状优先于纹理。（此外，也有一些心理学家提出，语言、学习与人类形状偏见之间的联系；当幼儿接受训练时，他们可以专门学习某些特定类别的单词以更多关注形状因素。如此一来，他们在后续掌握名词或物体相关词汇时，往往会表现出较超未训练孩子的学习能力。）

Wichamnn表示，这项工作提醒人们“数据会产生远超我们认知的偏见与影响。”这已经不是研究人员们第一次面对这个难题：人脸识别程序、自动招聘算法以及其它神经网络，此前都已经被证明会过度重视某些出人意料的特征。这是因为这些神经网络所使用的训练数据之内，已经存在着根深蒂固的偏见。事实证明，从决策过程当中消除这些不必要的偏见往往非常困难，但Wichmann认为此次新研究展示出新的可能性，也让他对此充满信心。

然而，以便Geirhos的模型已经开始关注形状这一因素，也有可能被图像当中的大量噪音或特定像素变化所干扰——这表明其距离还原人类视觉能力还有很长的道路要走。（同样的，Tsosenos实验室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也发表了研究报告，认为机器学习算法无法像人类那样感知不同图像之间的相似性。）不过Krigeskorte指出，“通过此项研究，我们终于开始触及一个实质性问题——计算机视觉识别算法并没能把握住人类大脑当中的某些重要机制。”而在Wichmann看来，“在某些情况下，关注数据集可能更为重要。”

多伦多大学计算机科学家Sanja Fidler（并未参与此项研究）也对这一观点表示赞同。她解释称，“具体结果，取决于我们能否设计出聪明的数据与聪明的任务。”她和她的同事目前正在研究如何为神经网络提供辅助，以帮助网络提取出最重要的特征。受到Geirhos调查结果的启发，他们最近训练出一种图像分类算法，其不仅能够识别出物体本身，同时也可以判断哪些像素属于其轮廓或者形状的组成部分。该网络在常规对象识别任务中能够自动提升判断水平。Fidler指出，“只要完成了一项任务，我们就会自然地在关注当中带有选择性，同时忽略掉其它很多不同的因素。但如果面对多个任务，我们可能会发现更多影响要素。这些算法也是如此。”算法在解决各种任务的过程中会“对不同的信息产生偏见”，这与Geirhos在形状与纹理实验中的发现高度契合。

Dietterich总结称，所有这些研究都代表着“在深入了解深度学习中具体步骤与内容方面，一个个令人兴奋的阶段。这也许将帮助我们克服一系列当下困扰着我们的局限。因此，我非常赞赏此次发布的一系列论文。”

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

杭州网站优化的几个注	网站优化效果不好怎么
网站结构怎么优化？对	网站文章内容持续更新