论文部分内容阅读
近年来语音合成技术发展迅速,并在越来越多的实际场景中得到了应用。基于大语料库的单元挑选与波形拼接方法和基于统计建模的参数合成方法是目前最为主流的两种语音合成方法。这些方法通常在训练阶段提取语音声学特征并构建统计模型,在合成阶段依据特定准则实现单元挑选或参数生成。在现有语音合成方法中,常用的声学特征包括基频、倒谱、线谱对等,常用的单元挑选与参数生成准则包括最大输出概率准则等。这些特征和准则往往基于语音产生机理和统计学方法进行设计,而从语音听觉感知角度进行的考虑较少。在另一方面,合成语音的质量评估仍然依赖于测听人的主观评分。在特征选择与合成准则中对于听感度量的考虑不足,制约了现阶段方法合成语音质量的进一步提升。因此,本文围绕结合听感度量的语音合成方法展开研究工作。一方面,研究了单元挑选与波形拼接合成中结合主观评价数据的单元挑选准则设计方法,通过构建合成错误检测器,实现了将测听人对合成语音的主观评价信息融入单元挑选准则,提高了合成语音的自然度;另一方面,研究了统计参数语音合成中结合听感相关声学特征的建模与生成方法,利用调制谱、多分辨率时频分析等与听觉感知机理相关的声学度量,对传统声学特征的建模与生成方法进行了改进,提高了合成语音的主客观质量。本文的安排如下,第一章是绪论,简要介绍了语音合成的概念、意义以及发展历史,重点介绍语音合成的研究现状,并提出了本文的研究目标和研究内容。第二章将提出一种结合主观评价数据的单元挑选语音合成方法。该方法首先利用众包网络平台快速、大量地收集测听人对合成语音的主观评价数据,然后基于这些数据构建合成错误检测器,最后将上述检错器的打分结果融合到单元挑选准则中。实验结果显示该方法能够有效改善合成语音的自然度。第三章将介绍结合听感相关声学特征的统计参数语音合成方法。首先介绍了调制谱和多分辨率时频分析的基本概念,包括其听觉生理基础与计算提取方法;然后研究了基于调制谱补偿的参数合成音质增强方法,设计实现了多种面向线谱对特征的调制谱计算策略,实验结果表明,先将线谱对参数转换为梅尔倒谱参数后再求取调制谱,可以取得最优的调制谱补偿性能,有效提高合成语音的主观质量;最后研究了结合多分辨率时频分析的参数语音合成声学建模方法,该方法采用了基于深度神经网络的声学建模方法和多任务学习机制,分别尝试了将听觉谱特征和听觉皮层输出特征作为模型训练的次要任务,实验结果表明,采用听觉谱特征作为次要任务可以提升倒谱特征的预测精度。第四章总结全文,并提出对未来工作的展望。