王小川：音箱不会成为AI时代具有重大潜力的产品

发布时间：2019-11-28 19:18:29 所属栏目：创业来源：TechWeb.com.cn

导读：副标题#e# 11月26日消息，在搜狐科技主办的2019搜狐科技AI峰会上，搜狗公司CEO王小川表示，AI时代个人硬件趋势是变得更IO，更便捷。王小川认为，音箱不会成为AI时代具有重大潜力的产品。虽然现在亚马逊开了头，但因为音箱便携能力不够，不是跟着个人走的产

自然交互当中最简单的课题就是语音识别，随着最近几年深度学习的发展，已经达到了一个新的高度，搜狗输入法支持每天峰值超过8亿次的语音识别请求，积累了大量的数据和能力，包括方言、语种、语音增强的问题，也有很多实用性部署，所以今天这个时代语音识别已经不是什么难题了，但在这背后还有很多技术，我们来看这样一个语音识别的场景。

可以看到这种语音识别融合了很多技术，科大讯飞北京研究院的朋友也在这里，一看就知道里面有些全能力的展示，不仅是识别得准，中间还包括了人身分离，通过AI算法可以知道声音不一样，除了语音之外也可以做笑声掌声方面的结构化识别，能够进行符号化，也就是我们所说的感知不同类型的符号。再就是英文混说，由于深度学习原理当中并不具有中英文混说的数据样本，所以传统语言人在做英文识别的时候不是调动感知的反应，发现不对的话我们就在想到底什么英文词能够恰如其分地进行这种嵌入和转化？这对核心语音识别系统是非常有挑战性的事情，所以语音识别背后还有若干工作需要去做。

关于降噪这件事情，原来是听不清楚一切都白搭，今天我们可以通过AI算法对历史上发生过的4万多种噪音进行相应的搜集和处理，也是做了非常大量的工作，能够对各种噪音进行学习，在这种情况下就能够把背景噪音进行很好的识别处理。现场有回响的回音和音乐的声音，我们可以把噪声进行分离。这是拿一个小的录音笔作为例子，背后显现出了很强的AI技术，并且已经做到极致。

除了语音识别之外，很重要的就是语音合成，前面大家可能觉得惟妙惟肖，已经和真人很接近了，但由于我们对语义有相应的理解，不同的段落当中会有抑扬顿挫和情感表达，到现在没有一个系统能够用独立的文字转化成一部长篇的故事或者长篇付费的音频节目，也就是出现同样的情感表达，因为背后有理解和表演的成分。两周之前我们第一次在逻辑思维付费的音频节目当中实现了本人语音合成技术，这种技术不是用文字和语音的转换，我们可以尝试用另外一个人来做一次朗读，把自己的情感和自己对语音的理解代入进去，然后通过综合迁移的方法把声音皮肤附上去，这样就是一种新的分工，有的负责语义理解，有的负责表演工作。

这是全球首次能够把这种真人语音合成技术带入实用，而且是在付费音频节目当中，大概50%的听众都没有听出来和真人有什么区别，可能有的觉得沙哑一些，觉得感冒了，也有的很愤怒，我是来听本人的表演，是花了钱的，你却拿机器人来糊弄我，这种观众占到20%，可以看到这样一些小心思。我们把制作和IP做到分离，生产之后能够24小时不间断地做商业节目，“假如生活欺骗了你，不要抱怨，抱我”，这项技术在未来各种场景当中都有实际用处，目前已经有31%的小朋友在听“凯叔讲故事”，很多都只认凯叔不认自己的爹了，我们可以把凯叔的表演和我的声音合在一块。

我们最早做语音技术的时候做了很好的唇语识别，不仅通过声波可以知道说什么，我们也可以转化为文字，这是一维的深度学习方式，要是只通过嘴唇运动进行识别，由此研发了基于三维的视觉表达，达到特定场景90%的效果。实验室技术也有进行实用，如果大家感兴趣的话可以在后面的展厅去尝试，想出任何一句诗词，不用发声机器就可以知道说的是什么内容，十句当中有九句都可以识别出来。现在我们是从嘴形到文字变成到从文字到嘴形的合成，由此开始做这样的分声技术，就是人机交互不仅是人讲的机器能懂，机器也可以通过交互像人一样去做表达。

这是最近我们和新华社合作的一款产品，新华社从今年2月份开始就用机器取代人进行新闻播报，之后我们又做了好几版的升级，能够使得产品升级从表情、手势都会变得更好。这样的一个主持人从原来每周下午一、二、五上班，现在转变为完全解放，开始升级成了一个采访记者，拿着摄像机和麦克风去做实际的采访，所以原有的工作已经被机器完整取代，不用化妆、灯光和摄像。新闻行业当中第一个被取代的职位反而是新闻主播，说明新闻主播本身的技术含量不是很高，不涉及到很多情感的表演表达。

平安普惠产品已经上线，以前都是靠人面对面的签约服务，随着技术的进步，人工客服已经被完全取代，我们提供语音合成和视觉合成能力，不过都是客服当中简单的确认性服务，要是销售的话估计这样会把客户吓跑。

目前语音视觉已经开始逐步走向语言，今天能够摸得到边的技术就是翻译，全球有70亿人当中汉语为母语的人口占到多少？大概20%，全球英文母语的占到多少？其实只排在全球人口的第四名，要比葡萄牙语和印地语还少，但英文是今天全球通用的语言，网页上95%的有效信息都是英文写的，100%的商贸活动都是用英文。所以作为中国人很难堪的是，当我们去国际上交流的时候需要被迫做多年的英文学习，除非是在当地生活或者理解外国的文化，那么需要精深的学习，大多数投入的学习成本和得到的收益是并不值当的，是否能够让机器帮助我们做到更好的翻译工作？

六十年代有了人工智能之后就一直在进行翻译，直到最近才大放异彩，中国的机器翻译是比美国做得更好，原因不在于技术更领先，而是态度更认真，今天的AI不仅靠算法，还要靠背后的数据驱动，中国公司是很努力地进行大量的数据搜集和加工工作。搜狗在2016年1月是全球首个在通用场景和大会上发布了这样一个英到中的同传系统，2017年1月也是行业当中首个英文检索，识别中文词语之后可以转化为英文，这对英文不是足够良好的人来讲有机会在全球获得交流信息，也是使用了一定的机器计算工作，加上很好的交互，使得我们的信息获取方式极大地拓展。

2017年10月，我们首个发布离线深度学习产品，也是一款翻译机。今天的深度学习网络结构特别大，如何把这种结构装到一个小设备当中？到了2018年我们是首个能够在Q3做到英到中的同传系统，也已经进入了使用状态，包括在苹果发布会当中进行精准转写，不过需要定期进行优化，包括医疗、科技、教育和物理学等等，因为机器并不具备足够高的认知能力，需要不断优化才能逐渐靠谱。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/7

首页

尾页

穗港科研团队首建真正	邓丽君引爆虚拟人板块
比亚迪成立电池公司，	自称新势力2.0，电动屋