论文部分内容阅读
随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。目前汉语语音合成已经很好地解决了清晰度和可懂度的问题,但是合成语音的自然度和表现力仍不尽如人意。合成语音和自然语音除了在音质上存在一定的差距以外,在韵律表达上也存在着很大差距,而韵律表现得好坏是影响合成语音自然度和表现力的关键,其具体表现在对节奏、轻重音、语调等的处理上;另外,合成语音缺少变化,如说话人对不同情感的表达不够恰当,也是合成语音听起来缺乏人情味的主要原因。 韵律预测是合成系统的一个重要组成部分,韵律预测的结果将对最终合成语音韵律的表达有着直接影响。通常韵律预测包括对文本层韵律表示的预测和对声学层韵律参数的预测。文本层的韵律表示包括如停顿、轻重音、语调等;而声学层韵律参数则包括音高、音强、时长等,通常用韵律模型进行估计。本文从停顿预测、重音预测、韵律模型构建等角度来研究合成系统中韵律的自动预测问题,从而进一步提高合成语音的自然度。具体地讲,本文的研究内容主要从如下四个方面展开: 1、采用可进行基元修改的波形拼接技术,建立一个基于大规模中性语音库和小规模情感语音库相结合的汉语语音合成系统。对比韵律类参数和音质类参数对合成语音的影响,得出二者对情感语音合成都有着重要影响,但韵律类参数起主导作用的结论。同时提出通过修改频谱包络综合地调整音质类参数来合成情感语音的方法,并通过实验验证这一方法的有效性,从而改善了以往为各个音质类参数单独建模、不够灵活的不足。 2、从特征和模型两个角度研究语音合成系统中停顿指数的预测问题。在特征方面,采用词性、词长、标点、位置信息等浅层特征解决韵律词及语调短语的预测问题;针对浅层特征对韵律短语等中间韵律结构划分不够准确的不足,提出了基于依存分析得到的深层特征,如弧数、内弧跨度、内弧类型等的停顿预测方法。在模型方面,尝试了N-gram模型、马尔科夫模型和决策树等方法,用于解决语法词之间标注点的停顿指数的预测。除此之外,针对长语法词的内部划分问题,提出了一种长词内部切分模型。对于情感停顿指数的预测,提出了将基于错误学习的情感驱动和基于大规模中性语料训练出的模型相结合的方法,并通过实验证明采用大规模的中性训练模型进行情感语料停顿标注是可行的。 3、根据听感建立自然风格的汉语重音标注语料库,分析轻声、重读音节同正常重音在基频、音节时长、强度、停顿长度等声学参数上的差异,研究时长与基频参数之间的关系、上声音调同基频的关系。提出了基于人工神经网络的三种句重音等级自动预测模型:利用声学参数建立声学重音预测模型;利用声调、词性、词位置、停顿指数等文本特征建立重音的语言学预测模型;综合利用声学参数和语言学参数,建立混合模型。另外,针对重音标注存在多样性的现象,提出支持率的评价方法。 4、研究中性和情感汉语语音合成系统的韵律模型的构建,包括时长预测模型和基频预测模型。采用基于人工神经网络的方法建立时长模型。采用基于语料库的韵律生成以及基于基频模式的两种方法来建立基频模型。在基于语料库的韵律生成中,重点考虑距离的计算和最优路径的选择。而针对基于基频模式的基频模型,提出用基频模式、基频均值和基频范围三个参数来刻画基频曲线,从而降低了基频模式的类别数,保证了生成基频曲线的多样性。针对情感语料比较少的问题,提出了多种方法将较大规模的中性语料和情感语料相结合,进行情感韵律模型的训练。