加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

发布时间:2019-01-29 11:03:04 所属栏目:建站 来源:鄢志杰、薛少飞、张仕良、郑昊、雷鸣
导读:阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用 IoT 设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。 本文将全面介绍阿里云语音识别技

FSMN 相比于 LCBLSTM 不仅可以更加方便的控制时延,而且往往也能获得更好的性能,需要的计算资源也更少。但是标准的 FSMN 很难训练非常深层的结构,由于梯度消失问题导致训练效果不好。而深层结构的模型目前在很多领域被证明具有更强的建模能力。因而针对此我们提出了一种改进的 FSMN 模型,称之为深层的 FSMN(Deep FSMN, DFSMN)。

进一步的我们结合低帧率(Low Frame Rate,LFR)技术构建了一种高效的实时语音识别声学模型,相比于去年我们上线的 LFR-LCBLSTM 声学模型可以获得超过 20% 的相对性能提升,同时可以获得2-3 倍的训练以及解码的加速,可以显著的减少我们的系统实际应用时所需要的计算资源。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

最早提出的 FSMN 的模型结构如上图(a)所示,其本质上是一个前馈全连接神经网络,通过在网络的某些隐层旁添加一些记忆模块(memory block)来对当前时刻周边的上下文信息进行建模,从而使得模型可以对时序信号的长时相关性进行建模。记忆模块采用如上图(b)所示的抽头延迟结构将当前时刻以及之前 N 个时刻的隐层输出通过一组系数编码得到一个固定的表达。

FSMN 的提出是受到数字信号处理中滤波器设计理论的启发:任何无限响应冲击(Infinite Impulse Response, IIR)滤波器可以采用高阶的有限冲击响应(FiniteImpulseResponse, FIR)滤波器进行近似。

从滤波器的角度出发,如上图(c)所示的 RNN 模型的循环层就可以看作如上图(d)的一阶 IIR 滤波器。而 FSMN 采用的采用如上图(b)所示的记忆模块可以看作是一个高阶的 FIR 滤波器。从而 FSMN 也可以像 RNN 一样有效的对信号的长时相关性进行建模,同时由于 FIR 滤波器相比于 IIR 滤波器更加稳定,因而 FSMN 相比于 RNN 训练上会更加简单和稳定。

根据记忆模块编码系数的选择,可以分为:

  • 标量 FSMN(sFSMN)

  • 矢量 FSMN(vFSMN)

sFSMN 和 vFSMN 顾名思义就是分别使用标量和矢量作为记忆模块的编码系数。

以上的 FSMN 只考虑了历史信息对当前时刻的影响,我们可以称之为单向的 FSMN。当我们同时考虑历史信息以及未来信息对当前时刻的影响时,我们可以将单向的 FSMN 进行扩展得到双向的 FSMN。

FSMN 相比于 FNN,需要将记忆模块的输出作为下一个隐层的额外输入,这样就会引入额外的模型参数。隐层包含的节点越多,则引入的参数越多。研究结合矩阵低秩分解(Low-rank matrix factorization)的思路,提出了一种改进的 FSMN 结构,称之为简洁的 FSMN(Compact FSMN,cFSMN)。下图是一个第l个隐层包含记忆模块的 cFSMN 的结构框图。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

对于 cFSMN,通过在网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上。进一步的,cFSMN 对记忆模块的编码公式进行了一些改变,通过将当前时刻的输出显式的添加到记忆模块的表达中,从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量,加快网络的训练。

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

上图是我们进一步提出的 Deep-FSMN(DFSMN)的网络结构框图,其中左边第一个方框代表输入层,右边最后一个方框代表输出层。我们通过在 cFSMN 的记忆模块(红色框框表示)之间添加跳转连接(skip connection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中,高层记忆模块的梯度会直接赋值给低层的记忆模块,从而可以克服由于网络的深度造成的梯度消失问题,使得可以稳定的训练深层的网络。

相比于之前的 cFSMN,DFSMN 优势在于,通过跳转连接可以训练很深的网络。对于原来的 cFSMN,由于每个隐层已经通过矩阵的低秩分解拆分成了两层的结构,这样对于一个包含 4 层 cFSMN 层以及两个 DNN 层的网络,总共包含的层数将达到 13 层,从而采用更多的 cFSMN 层,会使得层数更多而使得训练出现梯度消失问题,导致训练的不稳定性。

我们提出的 DFSMN 通过跳转连接避免了深层网络的梯度消失问题,使得训练深层的网络变得稳定。需要说明的是,这里的跳转连接不仅可以加到相邻层之间,也可以加到不相邻层之间。跳转连接本身可以是线性变换,也可以是非线性变换。具体的实验我们可以实现训练包含数十层的 DFSMN 网络,并且相比于 cFSMN 可以获得显著的性能提升。

从最初的 FSMN 到 cFSMN 不仅可以有效的减少模型的参数,而且可以获得更好的性能。进一步的在 cFSMN 的基础上,我们提出的 DFSMN,可以更加显著的提升模型的性能。如下表是在一个 2000 小时的英文任务上基于 BLSTM,cFSMN,DFSMN 的声学模型性能对比。

从上表中可以看到,在 2000 小时这样的任务上,DFSMN 模型可以获得比 BLSTM 声学模型相对 14% 的错误率降低,显著提高了声学模型的性能。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读