加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

“马云爸爸”成立快一年的达摩院,究竟在做什么?

发布时间:2018-07-13 07:10:39 所属栏目:站长百科 来源:品玩
导读:导语:你能想到的那些前沿技术领域,全部包括在达摩院的范畴之内。 去年10月份,“马云爸爸”做了一件非常惊人的事——成立阿里巴巴达摩院。 阿里之下的达摩院,来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界。同样,科研也代表了精

语音技术归纳起来可以从人听到到说话的过程理解。ASR语音识别,是识别听到的字和词;NLP自然语言是理解听到的话的含义;TTS则是语音技术合成,生成一段语音并传达。整个过程是从听到、听懂到生成。

无标题.png

语音技术的好坏的通用度量指标是识别错误率。在中国是字的识别错误率,英文则是词的识别错误率。据雷鸣介绍,现在一般识别错误率,比如做得比较好的是在一些比较好的领域,可以做到2-3%的错误率,做得比较差的是7-8%的错误率。

今天影响语音识别准确率的几个方面。一个方面,语音识别本身模块组成是分声学模型、语言模型、解码器三个部分。声学模型是给定语言学单元,计算输入语音匹配的可能性。“影响声学模型,很典型的就是辞典,今天不断有新词,新的发音进来,比如二次元文化。如果辞典不是新的,不能覆盖所有的目标识别领域,就不能识别。”

如今的识别环境同样考验硬件——麦克风的有效识别。如果不考虑麦克风还有环境因素,噪音、场地等这些噪音,语音识别的“鸡尾酒效应”则是指,在一个嘈杂环境下,如何识别语音主体的问题。

除此外,还有特殊领域的专有名词,中英混读以及年龄儿童音等。“在一些会议识别系统中,如果不提前知道会议要说什么,会识别的非常乱套。”

据介绍,阿里巴巴在语音识别模型方面最特别的是——Google和百度、讯飞基本上是基于LSTM模型技术,阿里巴巴主要基于DFSMN(深度前馈序列记忆网络)技术。据此前媒体公布的消息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。阿里提供的信息显示,该模型的语音识别准确率为96.04%。

商业模式方面,Google、百度、讯飞更多直接面向终端用户。阿里巴巴面更多的是面向合作伙伴。

据了解,阿里巴巴机器智能语音技术团队主要攻克语音识别方向,包括语音识别,语音合成,人机对话。智能语音交互团队主要做语音识别、语言理解、语音合成、人机交互、知识图谱、声纹识别等。

阿里巴巴已经有了一些应用。阿里巴巴园区7号楼的COSTA已经有一个语音点餐机,可以直接说出“两杯热巧克力”。

阿里巴巴还和上汽做了互联网汽车应用,具备全语音操控,包括基础语音能力,车载的地图/导航技能,也可以在云端不断升级和优化。

在上海地铁,已经拥有支持语音识别的售票机,你只需要对它说“买两张去陆家嘴的票”。

在法庭上,利用语音识别技术就可以做书记员基础的工作,最后让书记员做一些整理。雷鸣介绍,目前基本覆盖了300家法院。智能庭审覆盖的法庭数超过6千家,首家互联网法院,杭州互联网法院已经部署了这个系统。

IoT时代,雷鸣则提出,多模态语音交互和下一代对话引擎,在未来IoT时代非常重要的技术点。

写在最后

可以看出,此前阿里在各种大会上提出的AI应用,基本上已经在实践达摩院的研究能力。

此前,我们也曾详细介绍过阿里云ET农业大脑的“智能养猪”,阿里巴巴工程师就亲赴猪场就为每只猪建立了数字档案,也是建立在达摩院的技术体系之内。我们也可以得知,每个垂直领域的具体案例下会有很多详细的问题考究。

达摩院体系内的研究人员大多数是各个技术领域的科学家,在一些科学家口中,“阿里达摩院不同于其他公司的研究机构”,他们跳出学术研究的小圈子,希望技术可以被更多的人的应用。达摩院最主要的工作就是技术创新,探讨和业务、商业的合作的可能性。

实际上,在达摩院宣布成立当天,马云发表演讲称,研究不应该是Research for fun(为快乐研究),也不应该Research for profit(为利润研究),而是Research for solving the problem with profit and fun(为解决问题研究并带来利润和快乐)。


(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读