加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

智能座舱中的多模语音互通

发布时间:2022-03-04 20:18:56 所属栏目:大数据 来源:互联网
导读:汽车座舱是指车内的驾驶和乘坐空间,智能座舱,及智能化的汽车座舱。行业内目前还没有关于智能座舱的标准定义。我们可以简单的说,智能座舱通过配备智能化和网联化的车载产品,使得人-车-路-云之间的交互体验更加丰富,是集家居,娱乐,工作,社交功能为一体
      汽车座舱是指车内的驾驶和乘坐空间,智能座舱,及智能化的汽车座舱。行业内目前还没有关于智能座舱的标准定义。我们可以简单的说,智能座舱通过配备智能化和网联化的车载产品,使得“人-车-路-云”之间的交互体验更加丰富,是集“家居,娱乐,工作,社交”功能为一体的智能移动空间。
 
      首先,语音具有很广阔的应用场景,而语音交互则是语音应用中的一个很重要的方向。在上世纪90代,电话客服领域就已经有了语音交互的商业化应用,但是受制于数据,算力、算法以及硬件形态等条件,语音交互相关的应用范围比较受限,直到21世纪后智能手机助理和智能音箱的出现,极大地推动了语音交互的发展。
 
     对于车载语音交互,在2000年左右已经有一些基础功能比如拨打电话号码支持使用语音,但主要用于高端车。在2018年之前,车载语音交互大多是基于后装产品比如智能后视镜,2018年之后,出现许多车型搭载了前装语音交互功能。
  
      智能座舱的语音交互技术可以分为语音前端和语音后端两部分,前端包括VAD(语音活动检测),回声消除,噪声抑制,声源定位,增益控制等;后端则包括了语音识别,语义理解,对话管理,语音合成等。
 
首先是前端信号处理技术,因为车内的环境通常比较复杂,会有音乐,聊天声等各种噪音。首先要进行预处理,消除直流部分,通过回声消除去除设备播放的声音干扰。
 
对于混合的人声,需要进行分离,在车内,由于各个座位位置是固定的,可以利用波束形成对各个位置的声源进行定向增强。
 
对于分离后的声音,可能还包含着其他噪声,需要再通过噪声抑制算法进行去除,最后使用增益调整算法调整声音能量,得到适合语音识别的音量。
 
语音识别技术主流技术可以分为两类,第一类方法以Kaldi为代表,基于细粒度声学单元的建模,通过多层各自建模,利用FST构建系统从声学单元序列到文字序列的转换;另一种则是以Wenet为代表,直接字级别的建模单元,使用Transformer的模型架构去构建端到端系统。由于后者的系统和流程更加简单,解码方案成熟,在10万小时以上的工业量级训练数据上性能优秀,成为了目前工业界最流行的方案。
 
语义理解技术是为了提取文本的意图和关键信息,工业界的常用方案是同时使用规则匹配和神经网网络模型,规则匹配可以有效的确保关键说法百分之百的召回,并且适合快速修复错误,统计模型则可以提高对泛化说法的覆盖。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读