论文部分内容阅读
随着语音合成技术的发展,用户对语音合成效果也提出了更高的要求,尤其是多样化语音合成方面的要求。虽然现在的基于大语料库的波形拼接合成系统的效果不错,但是音库构建周期太长以及合成系统的可扩展性太差等缺陷都限制了大语料库合成系统在多样化语音合成方面的应用。而近年来提出的基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音合成系统由于可以在短时间内,基本不需要人工干预的情况下自动构建一个合成系统,并且通过适当的调整HMM参数可以灵活的改变嗓音特性、发音风格以及情感。因此具有很高的理论研究意义和应用价值。
对此,本文对NIT的HTS(HMM-based Speech Synthesis System,HTS)系统的技术框架、关键技术改进等方面进行了深入而系统的研究。本论文的主要研究工作如下:
1.本文基于现有的模型训练方法和参数生成技术,搭建了一个完整的基于HMM的语音合成框架,包括一个自动化的训练流程和相应的合成后端。它可以根据用户的需求,通过一定的语音数据进行自动训练,快速形成一个相应的合成系统。并且此框架的基础上,构建了一个中文的HTS系统。用户可以输入任意中文文本,此系统能够实时的输出合成语音。
2.由于传统的基于HMM的语音合成系统存在模型在训练阶段和合成阶段不一致的问题,因此NIT的研究者们将一个含有精确的时长概率分布的HMM-HSMM,引入系统的训练阶段和合成阶段,提出了基于HSMM的语音合成系统。本文构建了一个的基于HSMM的中文语音合成系统,验证了此种方法的有效性。
3.针对在基于HSMM的语音合成系统中,虽然HSMM模型的每个状态有精确的时长概率分布,但是状态转移概率却是时长无关的不一致问题,而且考虑到在模型训练中,大量的统计操作丢失了太多的细节信息,特别是时域变化信息。我们对HSMM模型进行改进,引入时长相关的状态转移概率,并提出改进的前向-后向算法,重新推导了参数重估公式,构建了一个基于DDHSMM(Duration-Dependent HSMM)的语音合成系统。使得合成语音的音质有所提高,节奏感更强。