加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效

发布时间:2018-11-09 16:25:45 所属栏目:编程 来源:36氪
导读:原标题:快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效 李岩在演讲中表示,多模态技术有两大应用方向,一是会改变人机交互的方式,二是将使信息分发更加高效;视频本身就是一个多模态的问题,而快手则拥有海量的多模态数据,多模态的研

其实解决这样一个问题是非常难的,因为即使是像苹果这样的公司,也是采用了结构光这样配置额外硬件的方式来解决。想让每一个用户都能享受到最尖端的技术,快手面临着硬件的约束,只能通过2D的RGB视觉信息对问题进行建模、求解,这里面包括了像Landmark人脸关键点检测、实时重建人脸三维模型等技术,把2D和3D两种不同模态的信息做建模、做对齐。

我们也能看到现在市场上可能有一些小型的APP在做类似的事情,但体验很差,而我们的整体体验还是非常好非常流畅的,这也需要归功于深度神经网络模型的量化,通过压缩和加速解决手机性能问题,可适配任意机型。

多模态技术如何实现精准理解视频内容

刚才我讲的是我们多模态技术怎样去帮助用户更好地记录,我们同时也希望通过一个更好的分享机制,让用户发布的视频能够被更多感兴趣的人看到。这也涉及视频推荐里面多模态的一些问题。

快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效

对视频内容的理解其实是非常难的,这个里面我做了两个比较有意思的事情。

第一,我们强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频,视觉和听觉两种媒体的融合,会是未来一个非常重要的事情。

第二,在工业界做的事情和在学术界做的事情有很大不同,我们有非常多的用户数据,这些用户数据是不在传统多媒体内容研究范畴里面的,但是工业界可以很好地利用这些数据,更好地做内容理解。

快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效

快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效

给大家举个例子,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息,我们并不知道他是在做什么,可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话,你可能无法获得真实的信息。我们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

像这样的视频在快手数据库中有70亿,想要理解这么多的视频内容,必须借助多模态技术。所以我们在这方面也做了非常多的工作,从文本、视觉、听觉角度去做了很多单模态的建模,包括多模态的综合建模、有序与无序,以及多模态特征之间怎样进行异构的建联,在很多任务内部的分类上也做了改进。

第二点需要强调的是,像ImageNET等很多的学术界研究内容理解的任务有非常好的标注数据集,但是这个数据集对于工业界来说还是太小,且多样性不够。我们平台每天有1.3亿多用户以及超过150亿次的视频播放,这个数据是非常大的。如果有150亿的标注数据,做算法就会有很大的帮助,但是现实上是不具备的。

快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效


快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效

那怎样将研究分析技术与海量数据更好地做到两者的融合呢?我们通过融合行为数据和内容数据,进行综合建模,同样大小的人工标注量,利用海量的用户行为数据,能够获得比纯内容模型更好的性能,对视频有了一个更好的理解,进而在多媒体内容的理解和分析方面的算法研究有了非常大的进展,这就使我们在工业界和传统学术界做这个事情时会更有优势。

未来多模态研究的热点:特征表达与特征对齐

总结一下,多模态内容解决的问题里面涉及一些模态的转化,比如怎样通过2D图像驱动3D,怎样通过语音生成文本或者通过文本生成语音,怎样通过视觉驱动音乐。另外一个应用是我们怎样通过融合更多信息来驱动内容的理解,其实都是一个多模态的问题。在学术界有很多研究还是停留在单模态,但我个人认为未来多模态会成为更有价值的研究方向。

多模态研究会有两个难点或者说热点:

第一是多模态的特征表达,也就是在多模态研究框架下怎样设计单模态的特征,这是一个非常重要的问题。

第二是多模态特征之间如何对齐,也就是有没有更好的算法对视觉、听觉和行为的部分进行统一的建模,这是未来的一个热点。

快手科技李岩:多模态技术会改变人机交互方式,会使信息分发更高效

几个总结

第一,多模态未来会持续带来更新的人机交互方式,比如我们刚才讲的Animoji技术,其实它带来的是一种可以通过人脸控制手机自动生成Avatar(虚拟动画)的体验。原来实现这些效果,需要在好莱坞专门设一个特效室来实现这一点,而现在普通用户都能享受这样的技术,所以人机交互会由原来重的、贵的、笨的方式转变为便宜的、每个人都能参与的而且便捷的方式。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读