论文部分内容阅读
近十年来,随着参数分析合成器性能的不断提升以及统计建模方法的日益成熟,基于统计模型的统计建模方法以及基于统计模型的拼接语音合成方法逐渐发展起来。其中,基于隐马尔科夫模型(HMM)的参数合成系统以及基于HMM模型的拼接语音合成方法被越来越多的研究人员关注起来。相比传统的单元挑选拼接语音合成方法,基于HMM的参数合成方法具有构建速度快,可懂度、流畅度高,需要的存贮空间小,音色等调整灵活等特点。基于HMM模型的拼接语音合成方法最近成为研究的热点,与传统的单元挑选和拼接合成语音方法相比,基于HMM模型的拼接语音合成语音方法利用统计模型的似然值或者后验概率作为指导模型挑选的依据,提高了单元挑选的准确性,减少了拼接语音合成中不连续的现象。但是HMM参数合成系统也有自身的缺点。由于采用最大似然准则或者最小生成误差等准则由统计模型生成声学参数,再由语音声学参数通过语音合成器合成语音,其合成语音的自然度与拼接合成系统的合成语音相比有一定的差距,不如自然语音清晰。这主要由三方面的原因造成:(1)语音分析/合成器的音质损失;(2)HMM统计建模的精确度不够;(3)统计模型的过于平均化。此外,由于如今对合成语音音质和自然度的评价标准主要是基于主观的MOS(Mean Opinion Score)得分,但是现今的基于统计模型的参数合成方法和基于代价的拼接合成方法都没有直接将人的主观听感判断作为语音合成系统构建的依据,加入到语音系统的构建过程中。本文针对现有HMM参数合成系统建模精确度不够的问题,提出了对HMM参数合成系统音素时长模型进行满方差建模的方法。并且对频谱声学模型的聚类过程提出了基于最小交叉生成误差的优化方法。针对现有的语音合成方法没有直接引入人的主观听感作为准则的问题,利用机器辅助语言学习中发音错误检测的方法,提出了基于发音错误检测的语音合成方法,将人主观判断引入语音合成的方法中。整个文章安排如下:第一章是绪论,对现今的基于HMM统计模型的参数语音合成方法作了介绍。包括基本原理,框架,优点以及不足。并且介绍了HMM参数合成方法最近的改进。第二章介绍了对语音合成中的音素时长进行满方差建模的方法。由于在传统的HMM语音合成方法中,对音素时长模型建模采用对角方差HMM模型,在模型训练以及时长参数生成时没有考虑音素时长HMM状态之间的联系。本文针对这项不足提出了用满方差HMM模型对语音音素的时长进行建模的方法,包括模型聚类以及参数生成的方法。实验证明,与对角方差HMM模型相比,时长满方差建模提高了合成语音时长的自然度。第三章针对传统参数合成方法中对频谱参数统计模型上下文聚类不精确的问题提出了基于最小交叉生成误差的决策树聚类优化方法。针对传统的基于MDL(最小描述距离)准则的统计模型上下文相关决策树聚类不够精确的问题,本文结合交叉验证以及最小生成误差准则,提出了最小交叉生成误差的准则,提出了分两步对决策树模型聚类的规模进行优化的方法。实验证明经过优化后的参数合成系统的合成语音在自然度和音质上有提升。在第四章中,由于现阶段的合成语音方法没有直接引入人的主观听感判断,本文首次通过结合发音错误检测的方法将人的主观听感引入到语音合成的方法中,提出了基于发音错误检测的语音合成方法。在本章中,我们首先介绍了传统机器辅助学习方法的基本原理,阐释了将人对合成语音的主观听感评判反馈到合成语音系统构建过程的必要性。并且结合机器辅助语言学习中发音错误检测的方法依次提出了合成语音音库标注自动错误检测方法,合成语音发音错误检测方法,以及基于发音错误检测的语音合成方法。穿插介绍了支持向量机(SVM)以及核Fisher区分性因子(KFD)分析的原理。主观和客观实验证明,合成语音音库标注自动错误检测方法能有效的减少合成语音音库中的标注错误。合成语音发音错误检测方法能在一定程度上检测合成语音中的发音错误。基于发音错误检测的语音合成方法的合成语音中的发音错误更少,与传统方法相比在整体自然度上有提升。第五章介绍了Blizzard Challenge语音合成比赛。Blizzard Challenge语音合成比赛是国际性的英文语音合成评测。科大讯飞实验室每年都会参加。本章详细介绍了Blizzard Challenge 2009年的比赛的各个评测子任务,系统搭建,以及我在各次比赛中所做的工作。最后介绍了实验室在09年Blizzard Challenge比赛中各项任务的评测结果。第六章是全文的总结,介绍了本文的创新点,以及今后的研究计划。