论文部分内容阅读
近年来基于大语料库的拼接合成方法是语音合成中的主流方法,它的最大优势是保持了原始发音人的音质。随着目前语音合成效果的逐步改善,人们对语音合成系统提出了更高的要求——多样化的语音合成,包括不同年龄、性别特征及语气、语速的变化,甚至多种情感表达等。
相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。并且,在一般的拼接合成系统中,如果想达到合成多变特性语音的要求,必须需要一个很庞大的语音数据库,这就给采集、分类、保存带来了困难。因此,近年来基于隐马尔柯夫模型(Hidden Markov Model,HMM)的可训练语音合成方法被提出并逐渐得到应用。
对于基于HMM的可训练语音合成应用,其特点是基于HMM对语音参数进行建模,然后利用音库数据进行自动训练,并最终形成一个相应的合成系统。与现在的大语料拼接合成相比,它的优势在于:可以在短时间内,基本不需要人干预的情况下自动构建一个语音合成系统,而且整个训练过程基本不依赖于发音人、发音风格以及情感等因素。我们可以通过分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化。
本论文对基于HMM的可训练语音合成方法(Trainable TTS,主要是借鉴NIT的HMM based speech synthesis system。关于NIT,详细介绍参看http://hts.ics.nitech.ac.jp),包括技术框架构建、关键技术改进等方面,进行了深入而系统的研究。具体的工作如下。
首先,在参阅Trainable TTS系统的一系列工作基础上,分析该系统在模型构建及合成的语音上突出的优点,以及不足,及它在参数提取、模型训练、合成阶段的声学参数产生算法和滤波器的选择等诸多方面的优缺点。
其次,本论文基于现有的模型训练方法和参数生成技术,建立了一个完整的基于HMM的可训练语音合成框架,包括一个自动化的训练流程和相应的合成后端。它通过一定的语音数据进行自动训练,快速形成一个基于此语料库的合成参数库。在合成阶段,用户可以根据自己需求,输入待合成的文本文件,此系统在很短的时间内,就能够输出合成的语音。此外,在此框架基础上,本文通过设计和优化上下文相关属性和问题集,进行汉语Trainable TTS系统的训练和构建,对Trainable TTS技术进行效果验证。
最后,我们对Trainable TTS中的时长模型作了相应的分析和改进。首先考虑到汉语语言特点,人们说话时很多时候会出现拖音或突然中止的情况,而现有方法是用高斯分布对时长建模,我们知道,高斯分布围绕峰值点是左右对称结构,显然时长分布存在一些非.高斯特性,那么简单的用高斯分布就不能很好的估测时长。另外,Trainable TTS中忽略了不同状态时长之间的影响,实际上,在汉语语言习惯中,说话人前后音节的速度有着很大的关联性,易知,前后两个状态的时长,一个很长而另一个很短的概率很小。基于以上分析,我们把相邻状态的时长影响作为主要考虑因素来确定状态时长,挖掘状态时长与其前一状态时长的关系。为此,我们提出了状态相关时长模型作为改进,并提出一改进的前向.后向算法来估测时长模型参数。我们将这一改进方法应用到TrainableTTS系统的实验中,从最终合成效果来看,基于改进后时长模型的Trainable TTS系统节奏感变强,提高了合成语音的自然度。客观评测结果显示,改进后的系统比原系统的平均MOS提升了6.46%。