人类看见形状，AI看见纹理：从计算机视觉分类失败谈起

发布时间：2019-07-18 16:09:39 所属栏目：建站来源：Jordana Cepelewicz

导读：研究人员们惊讶地发现，深度学习视觉算法之所以经常在图像分类时遭遇挑战，是因为它们主要从纹理而非形状当中提取判断线索。在我们观察一张猫的照片时，往往能够很快认出这是橘猫还是虎斑猫此外，图像是不是黑白、是否存在斑点、是否存在磨损以及褪色等等

副标题[/!--empirenews.page--]

研究人员们惊讶地发现，深度学习视觉算法之所以经常在图像分类时遭遇挑战，是因为它们主要从纹理——而非形状——当中提取判断线索。

在我们观察一张猫的照片时，往往能够很快认出这是橘猫还是虎斑猫——此外，图像是不是黑白、是否存在斑点、是否存在磨损以及褪色等等，也都是观察过程中能够轻松得到的结论。此外，我们还会发现这些小生灵是蜷缩在枕头后边，还是迅捷地跃上一张台面。总而言之，人类总能不知不觉快速学会识别小猫。相比之下，由深度神经网络驱动的机器视觉系统虽然能够在某些特定情况下提供优于人类的识别能力，但一旦构图较为罕见、存在噪点或者其它一些干扰因素，系统也有可能对一张内容明确的图像束手无策。

最近德国一支研究小组发现了当中令人意想不到的原因：人类对图像里各对象的形状较为敏感，而深度学习计算机视觉算法却通常更关注对象的纹理。

这一发现发表在今年5月举办的国际学习代表大会上，主要强调了人与机器在“思考”方式之间的鲜明差异，并阐述了我们的直觉如何误导人工智能。此外，这项研究也暗示了，人类的视觉为何会发展成今天的形式。

拥有大象皮肤的小猫与由钟表构成的飞机

举例来说，深度学习算法体现为一套神经网络，其中包含着成千上万张有猫或者无猫的图像素材。系统能够从这些数据当中找到模式，而后利用它来决定如何更好地标记自己从未见过的图像。网络的架构类似于人类视觉系统，但建模方式更为松散——这是因为，其中的连接层允许网络一步步从图像中提取出越来越抽象的特征。然而，这套系统实际上是一种“暗箱”流程，我们只能获得正确答案，却不知道这答案从何而来。并未参与此项研究的俄勒冈州立大学计算机科学家Thomas Dietterich指出，“我们一直在努力找到使得深度学习计算机视觉算法得出正确结果的原因，以及哪些因素有可能干扰这种视觉识别能力。”

为了达成这一目标，有些研究人员开始探索，在对图像内容进行修改之后，网络会因欺骗而得出怎样的结论。他们发现，某些非常小的变化都有可能导致系统完全错误地标记图像中的对象——但有些很大的变化，却反而不会让系统修改其标记内容。与此同时，也有其他一些专家通过网络进行了回溯，分析了其中单一“神经元”在图像中的响应，并据此为系统学习到的特征生成所谓“激活图集”。

其中计算神经科学家Matthias Bethge实验室的一组科学家，以及来自德国蒂宾根大学的心理物理学家Felix Wichmann采取了更为定性的方法。去年，该团队报告称，当他们在利用特定噪声进行干扰处理的图像上训练神经网络时，结果发现神经网络在对存在类似失真干扰的新图像进行分类方面，表现要优于人类。但只要对这些图像稍微进行一些新的模式调整，就能够完全骗过网络——即使新的内容扭曲与图中原本存在的扭曲看起来并无不同。

为了解释这一结果，研究人员们猜测，也许极低的噪音水平也可能会具有巨大的判定权重。在这方面，纹理似乎是个很不错的线索。Bethge和Wichmann实验室研究生，研究论文第一作者Robert Geirhos指出，“如果长时间添加大量噪音，图像对象的形状因素其实并不会受到太大的影响。但在另一方面，图像中的某些局部结构，在添加一丁点噪音因素时也可能变得极度扭曲。”因此，他们提出了一种巧妙的方法，以测试人类与深度学习系统究竟是如何处理图像的。

Geirhos、Bethge和他们的同事创造出两幅包含相互冲突线索的图像，即对象的形状取自某一物体，纹理则取自另一个物体。例如，用带裂纹的灰色纹理（大象皮肤）填充在猫的轮廓当中；或者制作小熊纹理的铝罐，乃至由钟面堆叠而成的飞机图形等。利用数百张此类图像，人类仍能够根据图像中的形状——猫、熊、飞机等——以极高的准确度进行标记。相比之下，四种不同的分类算法则倾向于另一种理解方式，即给出能够反映物体纹理的标记，包括大象、罐头、时钟等。

并未参与此项研究的哥伦比亚大学计算神经科学家Nikolaus Kriegeskorte指出，“这正在改变我们对深度前馈神经网络能够实现视觉识别能力、及其训练过程的理解方式。”

奇怪的是，人工智能采取的纹理大于形状的理解方式，似乎很有那么点现实意义。Kriegeskorte表示，“我们其实可以把纹理看成是一种更精细的形状。”神经系统能够更轻松地锁定高精度形状比例：具有纹理信息的像素数，要远远超过构成对象边界的像素数，而神经网络的第一步就是检测线条与边缘等局部特征。并未参与此项研究的多伦多约克大学计算视觉科学家John Tsotsos指出，“这就是纹理。所有的线段组都以相同的方式进行排列。”

Geirhos和他的同事已经证明，这些局部特征已经足以帮助神经网络完成图像分类任务。事实上，Bethge和该研究的另一位作者，博士后研究员Wieland Brendel在今年5月的大会上也通过一篇论文提到了这一点。在这次工作当中，他们构建起一套深度学习系统，但具体运行方式却与深度学习技术出现之前的分类算法非常相似——这更像是一种“特征包”。它最初会将图像分割成众多微小的块（类似于目前的Geirhos等现有模型），但接下来它并不像其它模型那样逐步整合信息并提取高级特征，而是立即识别出每个小块中的图像内容（「这个块中包含自行车的因素，另一块当中包含鸟的因素」等）。它会将这些决策结果叠加在一起以确定对象的实际内容（「如果包含自行车因素的小块更多，那么图像展示的就是自行车」），而完全不考虑不同图块之间的全局空间关系。但就是这种“笨办法”，却能够以惊人的准确度识别物体对象。

Brendel表示，“这一发现挑战了此前人们所认定的，深度学习技术与原有模型完全不同的假设。很明显……深度学习仍然代表着一种飞跃，只是不像有些人所希望的那么天翻地覆。”

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

杭州网站优化的几个注	网站优化效果不好怎么
网站结构怎么优化？对	网站文章内容持续更新