论文部分内容阅读
语音信号是人们构成思想疏通和感情交流的最主要的途径。传统的语音处理系统大多只着眼于语音词汇传达的准确性,而忽略了包含在语音信号中的情感信息。让计算机能够像人一样说出富有情感色彩的语音,就是人们长期追求的目标。因此,本文对情感语音合成技术进行了研究。
本文首先介绍了语音合成的研究意义、发展历程以及现有的主要技术,并分析了目前流行的情感语音理论,考察了主要情感分类方法,选取中性、喜、怒、惊、悲五种情感状态进行研究,从这五种情感语音中提取主要韵律特征,进行特征选择,发现了基音和共振峰特征的重要性。然后在中性语音的基础上,针对不同的情感状态,选用时域基音同步叠加技术(TD-PSOLA)对基频轨迹进行调整,对共振峰做相应的修改,最终与自然语音进行波形拼接,合成情感语音。在研究中取得了以下成果:
(1)在研究哪些特征在情感语音表达起重要作用的过程中发现了基音和共振峰的重要性,并结合这两类特征,修改韵律参数,拼接合成情感语音,并通过实验,证明了合成语音具有更好的情感真实度。
(2)对汉语语音协同发音现象进行研究,提出通过对语音过渡段共振峰的修改和基频轨迹的调整,来合成协同发音段,使不同的单字间在表达不同情感时具有不同的平滑过渡段。实验结果表明,合成的情感语音比未考虑协同发音现象时,自然度更高。
(3)设计了一个情感语音合成实验系统(Emotion converter)。该系统将采集到的中性语音,通过提取基音、共振峰以及能量特征,按照不同的情感状态依据情感规则分别进行修改,从而转换为带有其他情感的语音。