论文部分内容阅读
本文着眼于语音可视化,目的在于揭示真人的发音运动。首先,通过电磁发音仪(Electro Magnetic Articulography,EMA) AG500,以200帧/秒的采样率采集了真实说话人的英语及汉语的发音动作数据;接着,以采集的发音动作数据来驱动和控制了一个虚拟的3D说话人头模型,从而逼真地呈现了口腔内外发音器官的发音运动。为了获得英汉双语的易混淆发音文本对比对,进而直观比较双语的发音运动。本文基于英语和汉语的标准发音动作数据,对英语和汉语的元音和辅音分别进行了交叉语言比较,然而,交叉语言比较的首要任务就是要消除特定说话人声道特性及其它个人生理特性等音素而引起的固有差别,本文采用了基于说话人归一化的普氏算法来进行说话人归一化处理,接着利用分层聚类分析算法和多维标度定位算法对相似发音对进行了量化的比较,从而获得了英汉相似音素发音的元音对比最小对和辅音对比最小对,并揭示了这两种语言的易混淆发音文本对在发音动作上的区别。本文的发音文本由普通话语料、英语语料、以及英汉双语的语料和最小对组成。为了基于一系列音素的发音运动合成任意发音文本的发音轨迹,本文提出了一种改进的CM协同发音模型。实验表明:由改进方法获得的合成发音轨迹在幅度和波形上均可以更加逼近真实的发音轨迹。本文采用改进的CM协同发音模型合成了发音文本的三维发音动作,进而以此驱动和控制说话人头模型,直观展现了说话人发音时唇、舌等发音器官的发音动作,并手动配以标准的音频发音,构建了一个可视英汉计算机辅助发音训练系统。此外,为了评价本系统的性能,本文进行了人工评测。评价结果表明:本系统可以有效地模拟说话人发音时口腔内外发音器官的发音动作。另外,分别研究了本系统对言语障碍儿童和第二语言学习者的帮助,结果表明:本系统可对言语障碍儿童的发音训练起到一定的康复作用,且第二语言学习者在本系统的发音指导下均可提高其发音训练的效果和效率。最后,本文还设计了感知实验来检验舌读在语音感知和识别中的作用,结果表明:舌读信息可提供大于唇读信息的补充作用,舌读信息与唇读信息一样具有识别力。