论文部分内容阅读
以往对情感语音合成的研究,大部分从语音信号出发,分析声学参数的不同差异进而对语音进行合成。目前,英语、日语、德语、瑞典语等的情感语音研究较多,而汉语的情感语音研究还属于刚刚起步阶段。虽然情感的表达具有世界共同性,但具有共性的情感在声调语言和重音语言中表现时,对其语调模式的影响是十分不同的。许多语音学家对英语的研究发现,韵律会影响发音。随着语音合成技术的完善,语音的韵律研究越来越受到重视,然而当普通话中掺杂着情感、韵律等多种信息时,研究发音机理是相当困难的。所以本文主要通过电磁发声仪(EMA),录制了一个女性发音人的中性情感数据,通过电磁发声仪获得发音人的发音数据。我们主要分析了标准普通话的单元音[a i u y e o]不同声调在窄焦点下的发音数据,分析了各个元音在窄焦点模式下声调对调音的影响,并且对每个元音在不同声调下的声学基频参数F0、共振峰数据F1、F2、F3进行了分析。论文首先介绍了情感语音发音的相关研究,普通话情感语音发音机理的研究目前还不是很多。其次介绍了利用电磁发声仪设备对生理发音数据的收集,以及数据的预处理的过程,提出提取元音目标点Target的算法,并对其进行了实现。接下来对每个元音在生理发音数据和声学数据分别进行了具有统计分析意义分析,并且对两者关系进行了比较。其后利用主成分分析的方法和对发音人的元音空间分布做了分析。用matlab实现元音发音空间的分布,试图解释在多维变量影响下各个元音的空间分布。通过对每个元音在不同声调下的生理调音数据发现:声调会影响发音,并且每个元音的声调对调音的影响并不相同。对声学数据的研究发现每个元音在tone3时,基频值(F0)最低,每个元音在不同声调下的三个共振峰模式下的数据并不完全相同。生理发音和声学数据有一定的相关性。通过主成分分析发现,多维的变量因子可以用2个主成分因子来表示,并且Factor1代表发音的前后,Factor2代表调音的高低和舌形状。文章最后介绍了如何将EMA录制的数据转换成可视化模型界面。