论文部分内容阅读
随着时代的进步,语音合成技术也日趋成熟。在几种主流的语音合成技术中,统计参数语音合成(Statistical Parametric Speech Synthesis)拥有可自动快速构建、小型化灵活度高等优点而被广泛采用。而作为这个领域的一个新兴的热点方向,融合声学参数与发音运动参数的建模与合成技术通过引入和语音产生机理更加紧密相关的发音运动参数,对原有的声学模型结构进行改进,实现了两种参数的联合建模与生成。本文对上述技术进行了系统的介绍,并为优化发音运动参数的生成效果进行了深入的研究。整篇文章的结构安排如下:
论文第一章概括地论述了本文的研究背景。先把几十年来语音合成技术从无到有的发展情况进行了介绍,再简要地分析了当前几种常见的语音合成方法。
论文第二章介绍目前广泛常用的可训练语音合成技术(Trainable TTS)的基本流程框架,以及在此基础上形成的融合声学参数与发音运动参数的建模与合成技术,为本文在此项技术上的改进工作进行铺垫。
论文第三章主要介绍我们为了优化融合声学参数与发音运动参数的联合建模与生成系统在合成发音运动参数方面的表现,而提出的一种基于最小生成误差(Minimum Generation Error,MGE)准则的声学-发音运动参数联合模型训练优化方法。在该方法中,我们首先定义生成的发音运动参数与对应的自然发音运动参数之间的欧氏距离为生成误差,然后在最小化生成误差的目标下,采用梯度下降算法(GPD)同时对模型中发音运动参数的均值和方差以及声学参数的均值和方差4类参数进行优化,以达到优化发音运动参数合成效果的目的。实验证明,我们的优化方法可以明显提高合成的发音运动参数与自然参数的接近程度。
论文第四章介绍了我们对于声学参数与发音运动参数映射关系的一系列研究工作,这部分工作仍然基于融合声学参数与发音运动参数的联合建模与生成系统。我们首先对表征声学参数与发音运动参数映射关系的转换矩阵进行了多方面的研究,包括对模型训练中转换矩阵绑定类数设置的优化、直接基于MGE准则对模型中的转换矩阵进行更新、以及通过对转换矩阵的优化研究发音运动参数各维相关性等工作。另外,在本章的最后一节还将介绍我们针对声学参数与发音运动映射关系而制作的多功能演示系统。