“马云爸爸”成立快一年的达摩院，究竟在做什么？

发布时间：2018-07-13 07:10:39 所属栏目：站长百科来源：品玩

导读：导语：你能想到的那些前沿技术领域，全部包括在达摩院的范畴之内。去年10月份，“马云爸爸”做了一件非常惊人的事——成立阿里巴巴达摩院。阿里之下的达摩院，来源于武侠小说，作为武学最高研究机构，达摩院代表了修为的最高境界。同样，科研也代表了精

语音技术归纳起来可以从人听到到说话的过程理解。ASR语音识别，是识别听到的字和词；NLP自然语言是理解听到的话的含义；TTS则是语音技术合成，生成一段语音并传达。整个过程是从听到、听懂到生成。

无标题.png

语音技术的好坏的通用度量指标是识别错误率。在中国是字的识别错误率，英文则是词的识别错误率。据雷鸣介绍，现在一般识别错误率，比如做得比较好的是在一些比较好的领域，可以做到2-3%的错误率，做得比较差的是7-8%的错误率。

今天影响语音识别准确率的几个方面。一个方面，语音识别本身模块组成是分声学模型、语言模型、解码器三个部分。声学模型是给定语言学单元，计算输入语音匹配的可能性。“影响声学模型，很典型的就是辞典，今天不断有新词，新的发音进来，比如二次元文化。如果辞典不是新的，不能覆盖所有的目标识别领域，就不能识别。”

如今的识别环境同样考验硬件——麦克风的有效识别。如果不考虑麦克风还有环境因素，噪音、场地等这些噪音，语音识别的“鸡尾酒效应”则是指，在一个嘈杂环境下，如何识别语音主体的问题。

除此外，还有特殊领域的专有名词，中英混读以及年龄儿童音等。“在一些会议识别系统中，如果不提前知道会议要说什么，会识别的非常乱套。”

据介绍，阿里巴巴在语音识别模型方面最特别的是——Google和百度、讯飞基本上是基于LSTM模型技术，阿里巴巴主要基于DFSMN（深度前馈序列记忆网络）技术。据此前媒体公布的消息，对比目前业界使用最为广泛的LSTM模型，训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备，相比前代技术深度学习训练速度提到了3倍，语音识别速度提高了2倍。阿里提供的信息显示，该模型的语音识别准确率为96.04%。

商业模式方面，Google、百度、讯飞更多直接面向终端用户。阿里巴巴面更多的是面向合作伙伴。

据了解，阿里巴巴机器智能语音技术团队主要攻克语音识别方向，包括语音识别，语音合成，人机对话。智能语音交互团队主要做语音识别、语言理解、语音合成、人机交互、知识图谱、声纹识别等。

阿里巴巴已经有了一些应用。阿里巴巴园区7号楼的COSTA已经有一个语音点餐机，可以直接说出“两杯热巧克力”。

阿里巴巴还和上汽做了互联网汽车应用，具备全语音操控，包括基础语音能力，车载的地图/导航技能，也可以在云端不断升级和优化。

在上海地铁，已经拥有支持语音识别的售票机，你只需要对它说“买两张去陆家嘴的票”。

在法庭上，利用语音识别技术就可以做书记员基础的工作，最后让书记员做一些整理。雷鸣介绍，目前基本覆盖了300家法院。智能庭审覆盖的法庭数超过6千家，首家互联网法院，杭州互联网法院已经部署了这个系统。

IoT时代，雷鸣则提出，多模态语音交互和下一代对话引擎，在未来IoT时代非常重要的技术点。

写在最后

可以看出，此前阿里在各种大会上提出的AI应用，基本上已经在实践达摩院的研究能力。

此前，我们也曾详细介绍过阿里云ET农业大脑的“智能养猪”，阿里巴巴工程师就亲赴猪场就为每只猪建立了数字档案，也是建立在达摩院的技术体系之内。我们也可以得知，每个垂直领域的具体案例下会有很多详细的问题考究。

达摩院体系内的研究人员大多数是各个技术领域的科学家，在一些科学家口中，“阿里达摩院不同于其他公司的研究机构”，他们跳出学术研究的小圈子，希望技术可以被更多的人的应用。达摩院最主要的工作就是技术创新，探讨和业务、商业的合作的可能性。

实际上，在达摩院宣布成立当天，马云发表演讲称，研究不应该是Research for fun（为快乐研究），也不应该Research for profit（为利润研究），而是Research for solving the problem with profit and fun（为解决问题研究并带来利润和快乐）。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页

桑普暖风机啥样桑普暖	雷特森暖气片品牌好不
金莱克家用吸尘器怎么	电水壶烧水使用注意什