可视英汉计算机辅助发音训练系统

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:willamshao520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文着眼于语音可视化,目的在于揭示真人的发音运动。首先,通过电磁发音仪(Electro Magnetic Articulography,EMA) AG500,以200帧/秒的采样率采集了真实说话人的英语及汉语的发音动作数据;接着,以采集的发音动作数据来驱动和控制了一个虚拟的3D说话人头模型,从而逼真地呈现了口腔内外发音器官的发音运动。为了获得英汉双语的易混淆发音文本对比对,进而直观比较双语的发音运动。本文基于英语和汉语的标准发音动作数据,对英语和汉语的元音和辅音分别进行了交叉语言比较,然而,交叉语言比较的首要任务就是要消除特定说话人声道特性及其它个人生理特性等音素而引起的固有差别,本文采用了基于说话人归一化的普氏算法来进行说话人归一化处理,接着利用分层聚类分析算法和多维标度定位算法对相似发音对进行了量化的比较,从而获得了英汉相似音素发音的元音对比最小对和辅音对比最小对,并揭示了这两种语言的易混淆发音文本对在发音动作上的区别。本文的发音文本由普通话语料、英语语料、以及英汉双语的语料和最小对组成。为了基于一系列音素的发音运动合成任意发音文本的发音轨迹,本文提出了一种改进的CM协同发音模型。实验表明:由改进方法获得的合成发音轨迹在幅度和波形上均可以更加逼近真实的发音轨迹。本文采用改进的CM协同发音模型合成了发音文本的三维发音动作,进而以此驱动和控制说话人头模型,直观展现了说话人发音时唇、舌等发音器官的发音动作,并手动配以标准的音频发音,构建了一个可视英汉计算机辅助发音训练系统。此外,为了评价本系统的性能,本文进行了人工评测。评价结果表明:本系统可以有效地模拟说话人发音时口腔内外发音器官的发音动作。另外,分别研究了本系统对言语障碍儿童和第二语言学习者的帮助,结果表明:本系统可对言语障碍儿童的发音训练起到一定的康复作用,且第二语言学习者在本系统的发音指导下均可提高其发音训练的效果和效率。最后,本文还设计了感知实验来检验舌读在语音感知和识别中的作用,结果表明:舌读信息可提供大于唇读信息的补充作用,舌读信息与唇读信息一样具有识别力。
其他文献
人脸表情识别技术在人机交互、人工智能、数字家庭等方面拥有广阔的市场价值和应用前景,因此利用计算机自动识别人脸表情技术在图像处理、模式识别、计算机视觉等领域逐渐成
软件可靠性是软件质量中一个非常重要的指标,软件可靠性预计可以在软件开发的早期阶段对后续阶段软件潜在的缺陷进行预测,为提高软件质量提供必要信息。论文从软件体系结构的角
在全球移动通信迅猛发展和WiMAX、WiFi等多种移动宽带接入技术竞争的环境下,3GPP标准化组织在LTE技术基础上提出了TD-LTE-Advanced技术标准。在LTE-Advanced技术标准之中,TD-LT
随着网络控制技术的不断进步,传统控制系统网络化便成为一种新的发展趋势。因此,网络控制系统(Networked Control Systems, NCS)引起了越来越多学者的广泛兴趣。其安装简单,
传统的人脸识别系统将人脸数据或者提取到的特征值直接存放在数据库从而产生安全问题。针对这一问题,本文采用将局部模式特征提取算法和可撤除结合的模板保护方案。可撤除方
分布式雷达利用多个收发雷达协同工作来充分挖掘目标在空间、频率、极化等方面的信息量,从而获得较传统单站雷达更高的成像性能。按照收发雷达的排列方式,分布式雷达可分为广布
偏振是电磁波最重要的性质之一,调控电磁波的偏振态在光学应用和科技研究中至关重要。Metasurface是一种能够完全控制电磁波的新型平面结构,它的厚度远小于入射光波长。然而,由
我国公路覆盖面积广,由于公路长期暴露在自然环境中,经受阳光、雨雪侵蚀,受地壳运动影响,承载重型汽车,久而久之,公路易骤然坍塌威胁国家的经济与人民的财产安全。因此,公路检测是研
新一轮的科技革命和产业变革方向表明,LED可见光通信技术正在备受人们关注,能够兼顾照明和通信的双重功能。在物联网、智慧交通越来越普及的背景下,加之半导体技术的发展,该技术
随着社会生活质量的提高和生活节奏的加快,人们在日常生活中常常需要快速、准确地获得一定的位置信息。目前各种卫星导航系统均已能够帮助人们在室外及时地确认自身所处位置,