加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

2019深度学习语音合成指南(上)

发布时间:2019-12-22 06:10:52 所属栏目:运营 来源:站长网
导读:副标题#e# 人工生成的人类语音被称为语音合成。这种基于机器学习的技术适用于文本到语音转换、音乐生成、语音生成、启用语音的设备、导航系统以及视障人士的可访问性。 在本文中,我们将研究使用深度学习编写和开发的研究和模型体系结构。 但在我们开始之前

它有五个重要的组成模块:

  • 定位音素边界的分割模型(基于使用连接时间分类(CTC)损失函数的深度神经网络);
  • 字母到音素的转换模型(字素到音素是在一定规则下产生单词发音的过程);
  • 音素持续时间预测模型;
  • 基频预测模型;
  • 音频合成模型(一个具有更少参数的WaveNet变体)。

2019深度学习语音合成指南(上)

字母到音素模型将英文字符转换为音素。分割模型识别每个音素在音频文件中开始和结束的位置。音素持续时间模型预测音素序列中每个音素的持续时间。

基频模型预测音素是否发声。音频合成模型则综合了字母到音素转换模型、音素持续时间模型、基频预测模型等的输出进行音频合成。

以下是它与其他模型的对比情况

2019深度学习语音合成指南(上)

Deep Voice 2: 多说话人神经文本语音转换

文章链接:https://arxiv.org/abs/1705.08947

这篇文章是百度硅谷人工智能实验室在Deep Voice上的二次迭代。他们介绍了一种利用低维可训练说话人嵌入来增强神经文本到语音的方法,这可以从单个模型产生不同的声音。

该模型与DeepVoice 1有类似的流水线,但它在音频质量上却有显著的提高。该模型能够从每个说话人不到半个小时的语音数据中学习数百种独特的声音。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读