加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

知道如何理解生物视觉和计算机视觉的区别吗

发布时间:2021-05-23 20:57:30 所属栏目:大数据 来源:互联网
导读:从人工智能技术的早期开发开始,科学家就在梦想能够创造出可以看到外部世界的计算机。由于视觉这一功能对于人们的工作和生活起着至关重要的作用,因此破解计算机

从人工智能技术的早期开发开始,科学家就在梦想能够创造出可以“看到”外部世界的计算机。由于视觉这一功能对于人们的工作和生活起着至关重要的作用,因此破解计算机视觉的密码成为了开发通用人工智能的主要步骤之一。

 

但是,就像人工智能中需要实现的许多目标一样,计算机视觉的实现说起来容易做起来难。麻省理工学院的科学家在1966年的夏季启动了一个“夏季视觉计划”, 旨在创建一个能够识别图像中物体和背景区域的计算机系统,计划在两个月的时间完成,但要实现这些目标,需要的时间远远不止两个月。事实上,直到2010年以后,图像分类器和对象检测器才变得足够灵活和可靠,可以在主流应用中使用。

 

在过去的几十年中,机器学习和神经科学的发展帮助计算机视觉取得了长足的进步。但是要创建一个像人类一样观察世界的人工智能系统,还有很长的路要走。

 

哈佛医学院教授Gabriel Kreiman在其所著的《生物和计算机视觉》一书描述了人类和动物如何处理视觉数据以及在计算机上复制这些功能方面取得的进展。

 

Kreiman编著的这本书有助于理解生物学和计算机视觉之间的差异。该书详细介绍了数十亿年的演变如何为人类和动物提供了复杂的视觉处理系统,以及如何研究它开发更好的计算机视觉算法。此外,还讨论了现代计算机视觉系统与生物视觉系统的区别。

 

在此简要列出这本著作的一些主要内容。

 

硬件差异

生物视觉运行在有机经元和皮层细胞上,而计算机视觉运行在晶体管和电子电路上

 

在《生物和计算机视觉》一书的简介中,Kreiman写道:“我对生物神经与计算电路之间的联系感到特别兴奋。生物视觉是数百万年进化的产物。而研究人员开发计算模型时,可以从生物学中学习和了解如何解决视觉问题,并将这些解决方案作为建立更好算法的灵感。”

 

事实上,对视觉皮层的研究一直是计算机视觉和人工智能的灵感源泉。但在实现视觉的数字化功能之前,科学家必须克服生物视觉和计算机视觉之间巨大的硬件鸿沟。生物视觉在皮层细胞和有机神经元相互连接的网络上运行。而在另一方面,计算机视觉运行在由晶体管组成的电子芯片上。

 

架构差异

最近几十年来,深度学习领域开展了大量的创新工作,这帮助计算机模仿了生物视觉的某些功能。受到动物视觉皮层研究的启发,卷积层在查找视觉数据中的模式方面非常有效。池化层有助于概括卷积层的输出,并使其对视觉图案的位移不太敏感。卷积层和池化层堆叠在一起,可以从发现微小图案(物体的棱角和边缘等)到复杂的对象(面部、椅子、汽车等)。

 

但是,人工神经网络的高级架构与人们对哺乳动物视觉皮层的了解之间仍然存在不匹配。

 

Kreiman说:“不幸的是,层这个术语有点含糊。在计算机科学中,人们使用层来表示不同的处理阶段(层主要类似于大脑区域)。在生物学中,每个大脑区域包含六个皮质层。我认为六层结构(其连通性与微电路类似)非常关键。人们还不清楚应该在神经网络中包含该电路的哪些方面。”

 

此外,正如Kreiman在《生物学和计算机视觉》一书中强调的那样,大脑中的信息向多个方向移动。光信号从视网膜移到下颞叶皮层,再移到视觉皮层的V1、V2和其他层。但每一层也向它的上一层提供反馈。在每一层中,神经元彼此交互并传递信息。所有的相互作用和相互联系都有助于大脑填补视觉输入的空白,并在信息不完整时进行推断。

 

相比之下,在人工神经网络中,数据通常是单向移动的。卷积神经网络是一种“前馈网络”,这意味着信息只从输入层传递到更高层和输出层。

 

还有一种叫做“反向传播”的反馈机制,可以帮助纠正错误和调整神经网络的参数。但反向传播算法计算量大,并且仅用于神经网络的训练。目前还不清楚反向传播是否直接对应于皮质层的反馈机制。

 

另一方面,将较高层的输出与前一层的输入相结合的递归神经网络在计算机视觉中的应用还很有限。

 

 

Kreiman说,“当前的人工智能架构无法做到这一点。所有这些都将需要动态(人们并没有立即意识到这一切,并且通常使用更多功能来理解图像)和自上而下的信号的整合。”

 

语言和常识等领域本身对于人工智能社区是一些巨大挑战。但这些问题能否单独解决,并与愿景一起整合,还是整合本身才是解决所有问题的关键,这还有待观察。

 

Kreiman说:“在某个时候,我们需要深入到认知的其他方面,很难想象如果不涉及语言和逻辑,如何整合认知。我希望在未来的几年,将更多的语言和逻辑融入到视觉模型中(或者反过来也将视觉融入到语言模型中),这将会有令人兴奋的重大进展。”

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读