论文部分内容阅读
传统的语音合成多侧重于单一朗读语气的研究,为了进一步提高语音合成系统的个性化表达,促进语音合成系统的应用前景,本文从语音合成韵律模型和声学建模方法入手,针对个性化语音合成研究涉及的韵律风格、口语化表达、音色自适应等方面,分别对基于依存关系的韵律模型、语音合成韵律自适应方法、对话语气韵律建模方法、基于混合隐马尔可夫模型的参数语音合成等内容进行了研究,研究成果对于进一步提高语音合成系统的表现力和个性化表达,促进对语音产生模型更为深入的理解,具有较好的意义。具体来说,本文共取得了如下主要研究成果:
针对普通话连续语流中,相邻音节间在韵律特征上存在着强烈的互相依存关系的特点,本文对语音合成中韵律拼接代价函数给出了新的定义,使之可以精确描述相邻音节在基频曲线上的匹配程度,在此基础上建立了基于依存关系的韵律模型,较好地提高了语音合成输出的自然度。
本文提出了一种与拼接语音合成系统紧密结合的个性化韵律自适应方法,基于一个或多个源说话人的大语料库和一个目标说话人的小语料库,可以为目标说话人构建一个新的韵律模型。该韵律模型不仅具有目标说话人的韵律特征,而且同时还具有源说话人语料库对上下文信息的完备覆盖,从而使合成系统达到对不同说话人说话风格的模拟。
本文在对大量对话语料进行统计、分析的基础上,对对话语气中语气未完成现象进行了建模研究。由于对话语气语速较快和发音方式较随意,对话语气中很多音节没有完成其固有调形,从而引起基频曲线形状的变化。通过对未完成现象的建模,使得韵律模型可以输出具有对话语气韵律特征的基频曲线。
为进行个性化语音合成中音色自适应问题,本文进一步实现了基于混合隐马尔可夫模型的语音合成系统。传统上,造成基于隐马尔可夫模型语音合成系统音质较差的原因来自于训练过程中的时域过平滑和频域过平滑等现象。本文提出了一种混合隐马尔可夫模型的方法来解决这两个问题,有效地提高了系统的表现力和清晰度。