与汉语语音同步的三维人脸动画的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:wangjuekenan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与汉语语音同步的三维人脸动画合成的研究是自然人机交互领域的重要内容。将任意的声音与一个“虚拟人”重新结合起来可能是语音合成中最重要的进步之一。人们相信,视觉合成语音将会被证明比听觉合成语音更有价值。合成视觉语音可以为精神物理学和心理学的问题提供更细微的评估,这是自然语言无法提供的,并且加入视觉信息后可以显著提高可懂度。目前,还没有一个较好的方法来实现符合汉语发音习惯的人脸语音同步动画。因此,本文的目标是探索研究一种语音可视化新方法,并建立一个与汉语语音同步的三维人脸动画系统。该技术能够广泛应用于新闻播报、对话系统、虚拟主持人、虚拟会议、电影制作、3D游戏娱乐等领域。针对汉语的发音习惯以及语音可视化技术中对口型动画自然、连续的要求,本文提出了一种符合汉语发音习惯的三维人脸语音同步动画的方法。本文主要分为三部分:三维人脸建模的研究,协同发音建模研究,语音与人脸动画同步的研究。第一部分,根据对人脸运动解剖学的研究,构建一个基于肌肉模型与运动几何学模型的三维人脸控制模型,为了达到逼真的效果,建立舌头、牙齿等模型来配合发音器官的发声。通过数据结构的形式去控制肌肉模型和运动几何学模型实现人脸的运动,从而实现各种口型和表情的变化。第二部分,为了解决汉语发音习惯的问题,设计了语音可视化协同发音模型,该方法通过分析相邻音子间视素的影响权重,可以描述辅音与元音之间,元音与元音之间相互影响的视位表达,从而产生符合汉语发音习惯的口型动画。第三部分,为了解决人脸动画的语音同步问题,提出了一种语音流与动画流匹配的方法。首先,通过对汉语文本的分析,来获取中文可视音素;其次,通过对语音基本口型的时间定位,将语音和人脸动画相结合,并且在时间轴上保证语音流与动画流的匹配;最后通过插值算法合成与语音同步的三维人脸动画。该方法提高了人脸语音动画的连贯性和合理性。在上述研究的基础上,本文开发了一种基于汉语文本的三维人脸语音同步动画系统,该系统可以根据输入的文本,通过语音可视化技术,产生与语音同步的三维人脸动画。为了有效地评估三维人脸语音动画系统,用主、客观评价的方式进行实验对比和分析,实验结果表明:本文方法产生的口型动画更为逼真,且符合汉语发音的习惯。
其他文献
稻飞虱是我国水稻上重要的一类迁飞性害虫,一般集中在水稻中下部为害。掌握稻飞虱田间种群密度动态变化是准确进行稻飞虱预测预报和合理防治的关键。目前,我国稻飞虱田间测报调
随着GSM-R无线通信网络在高铁中的广泛应用,铁路的网络安全越来越受到人们的关注,RSSP-Ⅱ是我国为保证高铁开放网络安全制定的标准协议,其安全性和可靠性关乎到CTCS-3列控系
学位
高光谱图像光谱分辨率高,具有图谱合一的特性,能够提供区分不同物质的诊断性光谱信息,结合该光谱信息可提高对目标和背景进行定量分析的能力,因此高光谱目标检测技术在目标检测领域具有独特的优势。由于地物分布情况复杂和成像光谱仪空间分辨率的较低等原因,待检测的目标通常与其他地物共同组成混合像元,此时目标以亚像元形式存在。高光谱亚像元目标检测是目标检测研究的前沿和难点,本文着眼于如何利用高光谱数据的稀疏性提高
频率选择表面(Frequency Selective Surface, FSS)是一种二维周期性阵列结构,在空间电磁环境中表现出带通或带阻的滤波特性,故其常作为空间滤波器来使用。FSS广泛应用于微波
超分辨率图像重建是以同一场景的一幅或多幅低分辨率图像为输入,结合一定的先验信息,重构出一幅高分辨率图像的技术。这一技术在不改变现有硬件设备的前提下,能够有效地提高图像
在现代生活日新月异的进步中,各种高科技领域都在飞速发展,图像通信作为多媒体通信中的重点部分越来越多的获得人们的重视。传统的信源信道分离编码设计的方案,在通常情况下会使
随着网络技术的快速发展,现有的网络技术很难跟上人们对于网络的更快速、更便捷、更安全的要求。为此,各式各样的网络新技术也层出不穷。向量网络技术便是在此背景下应运而生的
与过去信息的严重匮乏状况相比,当前互联网的快速发展,使得数据量急剧膨胀,而面对如此海量的信息数据,衡量一个信息系统优劣的重要指标就是是否能对信息进行精确的筛选和过滤。推
氨气是一种重要的化工原料,在工业生产中有着广泛的应用,但如果操作不当,就会引发危险。由于氨泄露具有易中毒伤亡、易燃烧爆炸、易发次生事故等特点,因此处置难度较大。在工业环