2019深度学习语音合成指南（上）

发布时间：2019-12-22 06:10:52 所属栏目：运营来源：站长网

导读：副标题#e# 人工生成的人类语音被称为语音合成。这种基于机器学习的技术适用于文本到语音转换、音乐生成、语音生成、启用语音的设备、导航系统以及视障人士的可访问性。在本文中，我们将研究使用深度学习编写和开发的研究和模型体系结构。但在我们开始之前

作者还介绍了一种基于WaveNet的声谱到音频的神经声码器，并将其与Taco tron结合，代替Griffin-Lim音频生成。这篇文章的重点是处理多个说话人而每个说话人的数据有非常少的情况。模型的架构类似于Deep Voice 1，训练过程如下图所示。

2019深度学习语音合成指南（上）

Deep Voice 2和Deep Voice 1之间的主要区别在于音素持续时间模型和频率模型的分离。Deep Voice 1有一个用于联合预测音素持续时间和频率曲线的单一模型; 而在Deep Voice 2中，则先预测音素持续时间，然后将它们用作频率模型的输入。

Deep Voice 2中的分割模型使用一种卷积递归结构（采用连接时间分类(CTC)损失函数）对音素对进行分类。Deep Voice 2的主要修改是在卷积层中添加了大量的归一化和残余连接。它的发声模型是基于WaveNet架构的。

从多个说话人合成语音，主要通过用每个说话人的单个低维级说话人嵌入向量增强每个模型来完成的。说话人之间的权重分配，则是通过将与说话人相关的参数存储在非常低维的矢量中来实现。

递归神经网络(RNN)的初始状态由说话人声音的嵌入产生。采用均匀分布的方法随机初始化说话人声音的嵌入，并用反向传播对其进行联合训练。说话人声音的嵌入包含在模型的多个部分中，以确保能考虑到每个说话人的声音特点。

2019深度学习语音合成指南（上）

接下来让我们看看与其他模型相比它的性能如何

2019深度学习语音合成指南（上）

原文链接：https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

三星联合开发，真全面	realme Book增强版配置
小米12系列在西欧上线	iPhone 14 Pro前瞻工