加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

语音识别揭秘:你的手机究竟有多理解你?

发布时间:2019-12-13 19:46:27 所属栏目:建站 来源:钛媒体
导读:副标题#e# 图片来源@unsplash 文|苏宁金融研究院,作者|沈春泽 在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解。人和机器之间的交互也是相同的道理,让机器人知道人类要做什么、怎么做。交互的方式有动作、文本或语音等等,其中

目前开源世界里提供了多种不同的语音识别工具包,为开发者构建应用提供了很大帮助。但这些工具各有优劣,需要根据具体情况选择使用。下表为目前相对流行的工具包间的对比,大多基于传统的 HMM 和N-Gram 语言模型的开源工具包。

语音识别揭秘:你的手机究竟有多理解你?

对于普通用户而言,大多数人都会知道 Siri 或 Cortana 这样的产品。而对于研发工程师来说,更灵活、更具专注性的解决方案更符合需求,很多公司都会研发自己的语音识别工具。

(1)CMU Sphinix是卡内基梅隆大学的研究成果。已有 20 年历史了,在 Github和 SourceForge上都已经开源了,而且两个平台上都有较高的活跃度。

(2)Kaldi 从 2009 年的研讨会起就有它的学术根基了,现在已经在 GitHub上开源,开发活跃度较高。

(3)HTK 始于剑桥大学,已经商用较长时间,但是现在版权已经不再开源软件了。它的最新版本更新于 2015 年 12 月。

(4)Julius起源于 1997 年,最后一个主版本发布于2016 年 9 月,主要支持的是日语。

(5)ISIP 是第一个最新型的开源语音识别系统,源于密西西比州立大学。它主要发展于 1996 到 1999 年间,最后版本发布于 2011 年,遗憾的是,这个项目已经不复存在。

语音识别技术研究难点

目前,语音识别研究工作进展缓慢,困难具体表现在:

(1)输入无法标准统一

比如,各地方言的差异,每个人独有的发音习惯等,如下图所示,口腔中元音随着舌头部位的不同可以发出多种音调,如果组合变化多端的辅音,可以产生大量的、相似的发音,这对语音识别提出了挑战。除去口音参差不齐,输入设备不统一也导致了语音输入的不标准。

语音识别揭秘:你的手机究竟有多理解你?

(2)噪声的困扰

噪声环境的各类声源处理是目前公认的技术难题,机器无法从各层次的背景噪音中分辨出人声,而且,背景噪声千差万别,训练的情况也不能完全匹配真实环境。因而,语音识别在噪声中比在安静的环境下要难得多。

目前主流的技术思路是,通过算法提升降低误差。首先,在收集的原始语音中,提取抗噪性较高的语音特征。然后,在模型训练的时候,结合噪声处理算法训练语音模型,使模型在噪声环境里的鲁棒性较高。最后,在语音解码的过程中进行多重选择,从而提高语音识别在噪声环境中的准确率。完全消除噪声的干扰,目前而言,还停留在理论层面。

(3)模型的有效性

语音识别揭秘:你的手机究竟有多理解你?

识别系统中的语言模型、词法模型在大词汇量、连续语音识别中还不能完全正确的发挥作用,需要有效地结合语言学、心理学及生理学等其他学科的知识。并且,语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

智能语音识别系统研发方向

今天,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,智能语音识别系统技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

在语音识别的商业化落地中,需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心因素。目前语音识别在智能家居、智能车载、智能客服机器人方面有广泛的应用,未来将会深入到学习、生活、工作的各个环节。许多科幻片中的场景正在逐步走入我们的平常生活。

【钛媒体作者介绍:本文由“苏宁财富资讯”原创,作者为苏宁金融研究院金融科技研究中心副主任沈春泽。】

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读