论文部分内容阅读
随着语音合成技术的研究与发展,合成语音音质得到较大提升,但当前语音合成技术的研究仍以中性化语音为主,对情感语音合成的研究较少。人类生活对智能语音的需求不仅要涵盖基本的文字内容,还要承载丰富的情感信息,情感语音合成的研究将是智能语音研究领域的必然趋势。本文建立了一个多说话人的多种情感的情感语音语料库,针对汉语统计参数语音合成中的上下文相关标注生成,设计了一套包含6层上下文信息的标注格式,在此基础上,采用多说话人的情感语音数据和统计参数语音合成方法,利用说话人自适应训练算法训练了情感语音的声学模型,实现了情感语音的合成。论文的主要工作和创新如下:1.建立了一个多说话人的多种情感的语料库。在专业录音棚中,采用诱发方式激发录音人的情感,并进行录音。录制了7个男性说话人和7个女性说话人的11种典型情感的情感语音数据,并以Microsoft WAV格式(单通道、16bit、16kHz采样频率)进行保存。2.实现了一种面向普通话统计参数语音合成的标注生成算法。针对汉语统计参数语音合成中上下文相关标注的生成,设计了一套包含6层上下文相关信息的标注格式。以声韵母做为语音合成的合成基元,利用基于隐Markov模型(Hidden Markov Model,HMM)的统计参数语音合成方法,通过对合成语音音质的主、客观评测,验证了不同上下文信息对合成语音音质的影响。实验结果表明,本文设计的上下文相关的6层标注格式能够满足情感语音合成的需求。3.提出了一种利用多个说话人的多种情感训练语料,利用统计参数语音合成方法实现情感语音合成的方法。首先利用多个说话人的情感语音语料,通过说话人自适应训练(Speaker Adaptation Training,SAT)得到多个说话人情感语音的平均音模型,然后利用目标说话人的目标情感的训练语料,经过说话人自适应变换,得到目标说话人目标情感的声学模型,进而合成出目标说话人的目标情感语音。实验结果表明,本方法合成得到的情感语音具有较高的自然度和情感相似度。