基于生理发音模型的中文发音可视化技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:rmbsaxn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
发音过程可视化是指将发音过程中发音器官的运动情况形象的展示出来。发音过程可视化可以应用在很多领域,例如语言学习领域,向世界各国传播汉语符合国家的战略需求,是增强国家“软实力”的重要途径,国家汉办已经在全球设立了多个孔子课堂,但仍然难以满足4000多万海外汉语学习者的需求,师资力量缺口巨大;另外,在言语矫正领域,我国有数以千万计的言语障碍患者,发音过程可视化技术可以通过视觉反馈帮助患者更好地进行言语矫正。针对以上的背景,本文提出了一种使用中文电磁发音记录仪(EMA)数据来驱动三维生理模型的方法来实现中文发音过程可视化方法。首先,数据采集方面。一方面,我们建立了涵盖30个中文音素的EMA数据库,然后开发了一套数据标注软件对EMA数据库进行了音素级别的标注,并使用声学参数和发音空间参数分别进行了数据筛选。另一方面,针对三维生理发音模型,为了涵盖整个发音空间,我们设计了近15万个肌肉组合文件,并将这些文件输入到三维生理模型中,得到了相应的发音数据。其次,在将EMA数据和三维模型数据做映射比较之前,我们使用Thin-plateSpline方法调整了坐标系,并通过对比中文中性元音[]音的EMA数据和三维模型的休息状态的数据,得到了映射方程;同时,为了验证方法的严谨性,我们针对模型舌面前部和后部的关系设计了实验,证明了只采用舌面前部的信息进行分析的方法是可行的;另外为了验证方法的准确性,我们针对[a],[],[],[i],[o],[u],[y]这7个元音,把与他们最佳匹配的三维模型和真实的MRI数据进行了比较,分析结果显示两者之间的平均误差为0.21cm,这证实了我们方法的准确性。最后,我们提供了音素级别和音节级别的可视化演示系统,同时为了方便使用者使用我们的可视化系统进行言语学习和矫正,我们还开发了一套基于Struts+JSP架构的Web版的可视化系统。
其他文献
随着信息技术的飞速发展,网络上出现了海量的口语化信息(博客,微博,聊天记录等),如何使用计算机自动处理这些信息,分析其语义和意图,是一个亟待解决的问题。传统的自然语言处理技术虽
视频监控是现代社会中安全防范系统的关键组成部分,视频监控方面的研究分析工作对各种公共场所的安全起到了非常关键的作用。监控视频的数据量十分庞大,并且事先难以预测,再加上
学位
上世纪90年代后期,三维激光扫描技术的发展以及三维激光扫描仪的出现,使得现实世界中越来越多的物体可以通过激光扫描仪的方式建立其三维数字几何模型,基于点云数据的三维重
随着电信行业竞争的加剧,客户流失分析与预测已经成为客户关系管理的重要内容。电信客户行为数据的特征呈现出高维度、数据偏斜、非线性。传统的方法难以消除数据之间的冗余
神经科学是一门重点研究脑科学的综合性学科。在最近20年期间,神经科学经历着飞速的发展,对类脑人工智能的进步及各种神经及精神类疾病的治疗有着非常重大的意义。其中计算机
随着互联网的发展和各种电子产品的普及,人们对信息安全提出了更高的要求。公钥密码体制作为安全性较高的一种密码体制应用愈加广泛,模幂运算作为公钥密码体制的核心部分直接影
随着社会的快速发展,城市市政设施建设的步伐不断加快,各类市政设施的规模也随之加大,市政设施养护管理的工作量也随之增加。工作量的增加使得市政设施养护管理工作的难度增
近年来,随着虚拟现实技术和计算机图形学的不断发展,高逼真度、高真实感以及高智能化已经成为人们对虚拟现实平台好坏的重要评判标准,同时也一定程度上引导了虚拟现实平台的发展
人脸检测技术是模式识别领域的重要研究课题之一。在实际应用中,采集到的人脸图像往往会受到周围环境的影响,造成人脸检测中的姿态变化、遮挡和复杂背景等问题,导致人脸检测