论文部分内容阅读
随着目前语音合成技术的进步,合成语音的音质和自然度都有了很大的提高,因此,用户对语音合成系统提出了更高的要求--多样化的语音合成,包括多个发音人、多种发音风格、多种情感以及多语种等语音的合成。在这一背景下,通过调整一个说话人的语音,使其听起来像是另一个人说出来一样的说话人转换技术被提出。说话人转换技术根据少量的目标说话人的语音数据,对源说话人的语音参数进行调整,从而得到目标说话人的合成语音,并可以此实现多样化的语音合成。为此,本文对基于HMM(Hidden Markov Model)的说话人转换技术进行了详细的介绍,并对其训练流程和关键技术进行了改进,最后,针对具体的应用进行了相应的研究。本文按照如下几个部分展开讨论:
文章的第一部分主要是介绍了本文研究的背景和几种主要的说话人转换的方法。首先,简单的描述了一下语音合成技术以及其近年来的发展。接下来,为了帮助我们更好的理解说话人转换的原理,我们也对人的发音过程的声学机理和数学模型进行了系统介绍。这是因为,说话人转换技术是对源说话人的音色进行转换使其听起来像目标说话人发出的。而为了实现说话人音色的转换,通常需要对语音信号进行激励源和声道滤波器的分离,以便对激励信号和声道模型分别进行修改,然后再重新生成语音。最后我们对说话人转换技术的发展和常用的几种方法进行简要的介绍。
在文章的第二部分,主要介绍了基于HMM的说话人转换的基本框架。由于基于HMM的说话人转换技术是建立在基于HMM的语音合成系统的基础上的,因此,本章首先介绍了 Tainable TTS(Text-to-Speech)的基本框架,并对其中的一些关键技术进行了分析。接下来主要介绍了基于HMM的说话人转换技术的一个重要环节--MLLR(Maximum Likelihood Linear Regression)模型自适应算法,包括MLLR算法中HMM模型均值和方差转换矩阵的估计方法以及回归矩阵绑定的基本原理。最后基于上述基于HMM的说话人转换的基本框架,进行了女到女和女到男的说话人转换实验,并且从合成语音的音质、自然度以及与目标语音的相似程度三个方面进行了主观和客观的评测实验。
文章的第三部分针对第二章中所介绍的基于HMM的说话人转换的各主要技术环节,如基于MSD (Multi-space Distribution) -HMM基频建模的模型自适应、时长模型的自适应、源说话人模型的训练和选择、模型自适应算法、考虑动态参数的参数生成算法等模块;以及合成语音中的问题,如在自适应数据很少时效果不佳、合成语音频谱过于平滑等问题,分别进行了分析和相应的改进工作。主要的改进包括:整合了自适应流程,使频谱、基频、时长模型在相同的框架下进行转换;使用LSP (Line Spectral Pair) +DAL(Differential coefficients of Adiacent LSP)参数减轻频谱过平滑的问题;使用共享决策树聚类方法训练平均模型作为源说话人模型,从而提高模型自适应的鲁棒性;对模型自适应算法进行改进,提高自适应效果;针对不同的训练数据量,采用不同类型的转换矩阵;改进参数生成算法。
文章的第四部分主要介绍了基于HMM的说话人转换技术在情感语音合成以及嵌入式的多说话人语音合成系统方面的应用。提出了基于HMM的情感语音合成方法,并通过主客观的测试验证了情感语音合成的有效性。另外,针对嵌入式系统中资源受限的特点,提出了一种实现多说话人语音合成的方法。