论文部分内容阅读
本文基于X光和MRI声道数据,研究了汉语普通话声道的调音生理特性和原理,建立了一个汉语普通话的可视化调音模型,研究工作分为三个部分。
一、建立汉语普通话声道数据库。首先,对目前国际国内仅有的一套普通话X光录像进行了数字化处理和模型化标记,建立了一个大型普通话X光调音数据库。这套数据库有4位发音人(2男2女),覆盖了汉语普通话的204个阴平单音节,36个带四声声调的音节和36个儿化韵词组。样本主要是声道正中剖面的动态数据,共计3万余帧图像。经过模块化标记处理,为研究声道的调音生理特性和原理提供了比较完整的二维动态信息。其次,通过与国外大学科研机构的合作,利用先进的核磁成像设备,采集了一套较为完整的汉语普通话MPI声道数据。这套数据有8位发音人(6男2女),包括了汉语普通话10个单元音和10个可持续辅音的三维声道数据、54个音节的二维动态声道数据、16组儿化韵的二维动态声道数据和2组短语的三维动态声道数据,总量超过10万帧图像,让原本不可见的调音动作得以展示。经过模块化标记处理,为研究声道的调音生理特性和原理提供了丰富的三维资料。
二、汉语普通话声道特性的描述和分析。基于X光和MRI的声道数据,对普通话10个单元音韵母的三维立体声道、21个辅音声母及其75个变体的正中剖面声道特点进行了详细的描述。同时讨论了儿化韵的调音过程,并探讨了普通话生理调音特性与声学特性的关系。这些对普通话生理特性的研究,为语音学和言语声学的基础理论研究和声道调音的可视化模型奠定了坚实的基础。
三、建立汉语普通话声道调音模型。在对普通话生理特性描写和研究的基础上,建立了一个普通话声道调音模型,该模型可以用“一条主线、三个层面、七个部件和时空两域”来概括。首先,实现了从音素到调音参数、调音器官边缘形状、声道面积函数、声管共鸣声学特性、最后到合成语音的主线功能,研究了αβ模型等相关问题,最终能产生视觉和语音两种模态的输出。其次,模型分为三个层次:语言学层面面向语言学家和普通用户,只需输入文本、拼音或音标,还可以设置个人特征;调音参数层面面向语音学家,可以设置各项调音参数,直观地调节声道形状,研究语音生理;言语声学层面面向声学工程师,在这里设置各调音器官边缘曲线的坐标参数和运动方程的控制参数,来产生相应的声道形状和动作,并合成出语音。最后,根据调音器官的生理特性,采用先分解再组合的方法,把整个声道拆分成硬腭与咽腔后壁、下颌、嘴唇、软腭、舌头和喉管七个部分,分别进行分析和建立模型。模型设置了下颌打开度和平移度、唇开度、唇突度、软腭打开度等12个调音参数,建模过程中进行了软腭细化建模、舌体和舌尖两分建模和喉头高低运动建模。此外,还分析了音节内调音运动的时域特性,设置了调音模型的时域控制方程,最终建立了一个初步的汉语普通话声道可视化调音模型。
综上,本文是对汉语普通话言语产生生理机制和模型化的研究与探索,该模型的建立对于调音生理特性和原理的认识有着重要的基础理论意义,为语言学家、语音学家和声学工程师提供了一个研究语音产生的平台。模型对普通话的生理参数合成、虚拟说话人、以及普通话辅助教学,特别是聋哑儿童的可视化辅助教学,都具有非常广泛的应用价值。