论文部分内容阅读
汉语韵律预测是语音合成系统中必不可少的环节,它是生成静音、基频和时长等韵律参数的前提,其准确率很大程度上决定了合成语音的自然度甚至可懂度。本文的研究重点是如何提高韵律节奏和重音的预测准确率。在韵律节奏预测方面,本文首先统计和分析了语法特征和各级节奏单元分布之间的关系,然后将语法特征融合到节奏预测模型中进行了一系列尝试,证明了融入更多深层次的语法特征可以改善节奏预测模型性能。在上述实验基础上,本文对特征集合进行了优化,并通过实验证明新的特征集合可以进一步提高预测准确率。重音预测方面,本文重点研究了如何提高语篇环境下的重音预测准确率。针对语篇环境下的重音与单词信息量关系紧密但是难以统计量化的问题,提出了一种基于统计的单词信息量计算方法。通过实验证明,加入了包括单词信息量的全局特征可以改善重音预测模型的性能。具体来说,本文的主要工作包括以下几个方面: 1)探讨了如何利用更多深层次的语法特征改善汉语韵律节奏预测模型的性能。本文对大规模节奏标注语料库进行了统计和分析后发现,语法短语结构的浅层信息与低层节奏单元的对应关系比较明显;而依存关系的深层信息与高层节奏单元的关系更紧密。在随后的实验中,本文发现语法特征对韵律节奏预测模型的性能提高有帮助,但是仅依赖于语法特征的模型性能要差于仅依赖于传统的文本基础特征的模型性能。因此需要将文本基础特征和语法特征采用适当的组合方式才能提高韵律节奏预测模型的性能。对于各个韵律节奏单元而言,语调短语的预测模型在加入语法特征后提升明显,韵律短语和韵律词的预测模型则有小幅提高但不明显。同时,语调短语的预测优化更依赖于依存结构特征,而加入了语法短语结构特征以后反而会导致准确率下降。 2)验证了不同层级的韵律节奏单元预测更依赖于对应层级的语法特征。本文提出将语法特征按照层级划分为全局语法特征和局部语法特征。通过实验证明,加入全局语法特征以后的语调短语预测模型和加入局部语法特征的韵律词与韵律短语预测模型的性能均得到进一步的改善。 3)首先采用单句级别特征集合对语篇语料中的重音进行了预测实验。实验结果表明采用单句级别特征集合的重音预测模型对于高层级重音预测效果不佳。然后针对语篇环境下的高层级重音与单词信息量关系紧密但是难以统计量化的问题,提出了一种基于统计方法的单词信息量计算方法。通过实验证明,加入了包括单词信息量的全局特征可以改善语篇语料环境下的重音预测模型的整体性能。