论文部分内容阅读
近二十年来,统计参数语音合成方法发展迅速,逐步成为与单元挑选与波形拼接方法相并列的一种主流语音合成方法,隐马尔可夫模型(Hidden Markov Model, HMM)是统计参数语音合成中最为常用的声学模型形式。相比于单元挑选与波形拼接方法,基于HMM的参数合成方法具有系统构建自动化程度高、可快速自适应、合成语音平滑流畅、系统尺寸小等优点,但是该方法在合成语音的音质与自然度上和单元挑选与波形拼接方法相比仍有差距。此外,现阶段该方法在实现多样化及个性化语音合成时的性能仍不够理想。一方面,语音学知识难以融入声学特征预测过程,对于合成语音特征的控制存在较强的数据依赖性;另一方面,在利用少量目标发音人数据与模型自适应算法实现合成系统话者转换时,合成语音的自然度以及与目标发音人的相似度仍有待提升。现阶段统计参数语音合成方法所使用的声学模型结构缺乏对于语音产生机理的描述,是产生上述不足的原因之一。因此,本文围绕统计参数语音合成中融合发音机理的声学建模方法开展研究工作,将发音动作特征和共振峰特征作为中间层表征,构建了“语言学特征-中间层表征-声学特征”的声学模型结构,实现了对于实际语音产生中的层次化信息处理过程的模拟。首先,本文研究结合发音动作特征的声学建模方法,构建了中文多发音人连续语流发音动作特征数据库,验证了双流HMM模型对于实现发音动作特征与声学特征联合建模的有效性,提出了结合目标-逼近模型与多元回归隐马尔科夫模型(Multiple Regression Hidden Markov Model, MRHMM)的声学建模方法,实现了基于语音学规则的合成语音特征控制;其次,本文将共振峰特征作为音素序列与可观测声学特征之间的中间表达,提出了基于隐藏式轨迹模型(Hidden Trajectory Model, HTM)的语音合成频谱建模方法,提高了频谱特征的预测精度与合成语音的自然度,实现了对于合成语音共振峰频率与带宽等特征的灵活控制,并且进一步研究了HTM模型自适应方法,提高了话者转换合成语音的自然度与相似度。整篇文章的安排如下:第一章是绪论,介绍语音产生机理,并简要回顾几种常见的语音合成方法。第二章具体介绍基于HMM的统计参数语音合成方法,包括HMM的基本概念、基于HMM的语音合成系统框架以及其中的关键技术点,最后通过分析当前方法的优缺点,阐述本文研究工作的动机与出发点。第三章着重介绍基于双流HMM的发音动作特征与声学特征的联合建模方法。首先,完成了多发音人中文连续语流发音动作特征数据库的录制,包括录音环境的搭建以及对于采集的发音动作特征的预处理等;然后,实现了基于双流HMM的中文连续语流发音动作特征与声学特征的联合建模;最后,研究了不同的上下文属性、模型聚类方式及流间相关性假设对于发音动作特征与声学特征的联合建模性能的影响。第四章具体介绍结合目标-逼近模型与MRHMM模型的可控语音合成方法。首先,提出了基于目标-逼近模型的发音动作特征预测方法,该模型相比HMM模型具有参数数目较少且物理意义明确的优点;其次,在第三章研究工作基础上,设计实现了结合目标-逼近模型和MRHMM模型的可控语音合成方法,并通过主客观测试验证了其结合语音学知识实现合成语音特征控制的有效性;最终,完成了结合发音动作特征的可控语音合成演示系统的开发。第五章介绍基于HTM模型的统计参数语音合成方法。首先,介绍了HTM模型的基本框架,该模型将由目标-逼近模型产生的共振峰轨迹作为音素序列与可观测声学特征之间的隐含中间层,并利用非线性变换描述共振峰特征与声学特征之间的映射关系;然后,提出了基于HTM模型的统计参数语音合成方法,设计实现了相应的模型训练与参数生成算法,并且通过实验证明了该方法在降低频谱特征预测误差、提高合成语音自然度、实现对于合成语音共振峰特征灵活控制等方面的有效性。第六章介绍基于HTM模型自适应的语音合成话者转换方法。首先,提出了HTM框架下的模型自适应方法,该方法对于HTM模型中的共振峰相关参数和残差相关参数分别进行转换,并通过组合两者转换实现最终的模型自适应;然后,将HTM模型自适应方法应用于语音合成中的话者转换,实验结果表明该方法可以取得比传统最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)方法更优的转换后合成语音自然度与相似度。第七章对全文进行了总结。