加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

微软技术院士黄学东:掌握核心的语音语言技术,AI才有希望

发布时间:2018-05-30 15:37:27 所属栏目:建站 来源:站长网
导读:2018年5月21日,微软在北京举行了2018微软人工智能大会。会上展示了微软在人工智能领域的技术突破以及一些产品的功能展示,微软近来在语音领域的发展,尤其让人印象深刻。InfoQ记者在会后采访到了微软全球资深技术院士,微软云与人工智能事业部负责人黄学
副标题[/!--empirenews.page--]

2018年5月21日,微软在北京举行了2018微软人工智能大会。会上展示了微软在人工智能领域的技术突破以及一些产品的功能展示,微软近来在语音领域的发展,尤其让人印象深刻。InfoQ记者在会后采访到了微软全球资深技术院士,微软云与人工智能事业部负责人黄学东博士,进一步了解到微软在AI领域的一些进展和规划。

黄学东博士在微软工作已经超过25年。25年的时间里,黄博士负责过很多项目,但是有一件事情没变:他是微软语音技术的创始人,微软的语音识别、语音合成技术都是他一手创建出来的。

在25年中,黄学东博士负责过很多东西,包括新产品的研发、通信系统、Bing搜索、搜索广告、CNTK、深度学习平台、GPU集群,还有智能客服系统、对话系统,认知服务里面的自然语言处理的所有东西。

黄博士认为,在人工智能发展的过程中,语音和语言也是皇冠上的明珠。他说:“只有掌握了核心的语音和语言技术,人工智能才有希望,否则其它都是在‘忽悠’。”

黄博士告诉InfoQ,目前在“感知”方面,计算机视觉和语音识别进步都很大。在“认知”方面,这个进步还是有限的。微软机器翻译第一次达到了媲美人的水平,这是非常有历史性意义的事实。语音和语言是人类进化中重要的东西,而现在,计算机第一次在翻译质量上超过专业人士的水平,黄博士说:这对人类文明的进展来说是很震撼的。

Q:谈到语音识别、自然语言处理,大家更多会想到具体的产品,比如音箱或者一个APP.您认为这个东西就要变成一个大家可以消费的产品吗?这个产品会是什么样的业态,目前是不是还处于教育市场得阶段?未来会什么样?

黄学东:这个问题很好。语音技术是一个赋能的技术,所有的开发者都可以把这个技术拿过来,实现他自己想要做的东西,比如智能音箱,因为现在远场语音识别能力很强了,所以音箱火得不能再火了——“百箱大战”——今年CES展上基本上就只有两个东西,一个是自动驾驶,另外一个就是音箱,基本上可以占CES展台80%的东西。音箱出现很重要的一个原因就是语音识别技术进步到了这个水平,基本上可用了,就是远场交互都可用了。

再说回来,今年我觉得最热的是翻译器,尤其对中国人。因为老美出去走遍世界,他讲英文,好像别人都懂,中国人出去一讲中文,别人不知道什么意思。在中国每年有1.2亿的游客出去。现在我们跟小米生态链企业香蕉出行合作推出的魔芋翻译器,真是物美价廉,基本上只要目前市场上翻译器1/10的价格。它刚出来不到一个月,销售基本遍布全国各大城市,而且常常是脱销状态。

还有一个有趣的事情。出国到海外就会发现,国内的云服务在国外很难用,在国内做的演示很棒,但出了国云服务就没法用。香蕉出行的情况是倒过来的,因为我们的云服务是真正覆盖全球得,它在国外的表现非常好,大家用起来用户口碑很好,上市不到一个月现在是卖到完全脱销。这就是微软人工智能和中国企业结合得非常好的一个案例,我们非常高兴,小米也非常高兴。雷军想要给他的领导班子每人送一台——对不起缺货,这是真的故事。

Q:在您看来,从技术上说翻译特别是中英翻译,是不是已经可以实现大规模产业化了?

黄学东:技术上已经是了。今天在我的演讲中演示了一个表,微软最新的机器翻译系统已经达到了69分。机器翻译这个东西不像语音识别是一对一,只有唯一的答案,机器翻译是多对多的,每个答案都可能是准确的,所以在评价机器翻译的时候,现在只能靠人来评,当然老师也很严格,100和0之间相差很大。我们根据人来评的话,其实现有的商用系统像微软和谷歌的,在标准的测试集上分别在56分、54分左右,中国企业的研发能力也很强,像搜狗公司,在微软推出最新突破之前有最优秀的系统,达到了62分的水平……

Q:您在演讲中提到微软会跟中国移动去合作,这一部分有什么可以分享的?定制化云服务感觉上只是针对声调的不同进行区分,在人工智能上有什么样的差异化?

黄学东:我今天讲的内容非常多,我大概梳理一下。今天讲了一个事情是中国移动和微软正在合作,用微软的语音识别技术帮助他们解决客服中心的一些技术问题,这是一个非常了不起的事。因为中移动是全球最大的电信运营商,他们现在用最优秀的技术满足他们的客户需求,这本身就是一个有意义的创举。微软公司的人工智能技术、语音识别技术和全球最大的电信商合作,解决用户的实际工程需求。这是一个中美两国合作,让用户更加满意的一个非常好的案例。

第二,微软最近推出了很多全新的产品和服务,包括统一的语音识别API,我们可量身定制所有的语音识别、语音合成、唤醒词和机器翻译系统。

第三,PMA,我们有一个普林斯顿计划,我们提供的麦克风阵列在全球都是具有领导性的。微软最新推出来的PMA麦克风阵列绝对是“黑科技”,绝对是“耳听八方”,我把它称为是“全武功”的会议人工智能系统。这个创新是基于微软黑科技的语音识别DDK设备开发套件,是我们跟中国本土的Roobo公司联合推出来的,也是微软和中国公司合作以高新技术领先世界新潮流的最好的案子。微软不仅仅是翻译器和中国本土公司合作,像这样先进的麦克风阵列也是和中国本土公司合作开发的。

Q:您说语音识别是开启人工智能的重要一步,这是因为您是语音识别面的专家,还是说它的确对人工智能行业是至关重要的?

黄学东:我觉得大家应该有这样的共识。计算机视觉、计算机语言识别是“感知”智能,感知智能因为深度学习、神经网络实现了突破了,大家都非常激动。“认知”是包括推理、理解上下文、自然语言处理,这方面的突破还有待大家的努力。而机器翻译,则在感知和认知之间的一个历史性的里程碑。

让我们想象一下,如果有一天,机器可以理解我们所有的文本,了解上下文,有推理的功能,想象一下后果:这意味着机器可以24小时阅读所有的新闻、所有出版过的文件、著作、科学文献,它可以上知天文下知地理,包括生物,这是不是比爱因斯坦还牛?爱因斯坦也是只懂物理——这才是真正的“强人工智能”的来临。

强人工智能一定是由自然语言理解、感知驱动的,让计算机能达到人的知识获取能力,可以通过阅读自动获取知识,这是不是很厉害?过去5000年人类的所有文献,它都可以读得一个字不忘,还有超过人类得深入的理解。像我今天引用《封神演义》里的一句:眼观六路、耳听八方,其实《封神演义》里面讲的不是六路,是眼观四路、耳听八方。如果计算机在自然语言处理上进步了,就可以说黄学东在会上讲的眼观六方,不对,《封神演义》讲的是四方,不是六方。

Q:产品路线图得下一步是哪些语种或者小语种?还有哪些语言已经进入识别了?为什么你会在这个上面有执念呢?因为你学了这个专业还是因为其他?

黄学东:我自己是一个有情怀的,这个情怀是什么呢?在清华大学做研究生的时候,我就想让语言的障碍不是成为我们交流的障碍,我觉得这件事情太有意义。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读