论文部分内容阅读
随着目前语音合成效果的逐步改善,用户对语音合成系统提出了更高的要求,体现在合成系统的构建复杂度以及系统的音质。在这种背景下,一种能够在短时间内通过自动训练的方式进行合成系统构建,而且能够获取比较好的音质的语音合成系统,有着比较高的理论研究及使用价值。对此,本论文在基于HMM的可训练语音合成(TrainableTTS)基础上,提出了一种能够在不大量增加系统负担的前提下有效的提高合成语音音质的方法。本论文具体的研究工作和研究成果如下:
首先,对现有成熟的TrainableTTS系统进行一个比较系统全面的介绍,介绍其中的基础理论:隐马尔科夫模型(HMM)以及系统实现的一些关键技术,这为下一阶段的工作提供了一个高效的平台系统。
其次,基于上面介绍的TrainableTTS系统框架,针对此系统的合成语音中的塞音比较模糊的现象进行分析,并且提出了用自然的塞音段频谱参数来替换对应模型预测的频谱参数来进行参数生成,最后,结合自然的塞音波形和自然的塞音频谱,用频谱替换和波形替换方法实现了一个塞音清晰化的系统。
最后,基于上面的自然塞音频谱参数替换的想法,提出了结合自然样本单元挑选与参数生成相结合的方法来提高合成语音的音质,通过相关的试验可以证明这种方法能有效的提高合成语音的音质;通过对频谱参数进行压缩,可以进一步的减少参数的存储量,使其在受限领域的应用成为可能;进一步,为了完善此方法下的参数生成算法,提出了新的参数生成算法,即把自然样本单元当作一个模型约束来控制参数生成的过程;最后,验证了此方法在英文音库下的效果。