论文部分内容阅读
与汉语语音同步的三维人脸动画合成的研究是自然人机交互领域的重要内容。将任意的声音与一个“虚拟人”重新结合起来可能是语音合成中最重要的进步之一。人们相信,视觉合成语音将会被证明比听觉合成语音更有价值。合成视觉语音可以为精神物理学和心理学的问题提供更细微的评估,这是自然语言无法提供的,并且加入视觉信息后可以显著提高可懂度。目前,还没有一个较好的方法来实现符合汉语发音习惯的人脸语音同步动画。因此,本文的目标是探索研究一种语音可视化新方法,并建立一个与汉语语音同步的三维人脸动画系统。该技术能够广泛应用于新闻播报、对话系统、虚拟主持人、虚拟会议、电影制作、3D游戏娱乐等领域。针对汉语的发音习惯以及语音可视化技术中对口型动画自然、连续的要求,本文提出了一种符合汉语发音习惯的三维人脸语音同步动画的方法。本文主要分为三部分:三维人脸建模的研究,协同发音建模研究,语音与人脸动画同步的研究。第一部分,根据对人脸运动解剖学的研究,构建一个基于肌肉模型与运动几何学模型的三维人脸控制模型,为了达到逼真的效果,建立舌头、牙齿等模型来配合发音器官的发声。通过数据结构的形式去控制肌肉模型和运动几何学模型实现人脸的运动,从而实现各种口型和表情的变化。第二部分,为了解决汉语发音习惯的问题,设计了语音可视化协同发音模型,该方法通过分析相邻音子间视素的影响权重,可以描述辅音与元音之间,元音与元音之间相互影响的视位表达,从而产生符合汉语发音习惯的口型动画。第三部分,为了解决人脸动画的语音同步问题,提出了一种语音流与动画流匹配的方法。首先,通过对汉语文本的分析,来获取中文可视音素;其次,通过对语音基本口型的时间定位,将语音和人脸动画相结合,并且在时间轴上保证语音流与动画流的匹配;最后通过插值算法合成与语音同步的三维人脸动画。该方法提高了人脸语音动画的连贯性和合理性。在上述研究的基础上,本文开发了一种基于汉语文本的三维人脸语音同步动画系统,该系统可以根据输入的文本,通过语音可视化技术,产生与语音同步的三维人脸动画。为了有效地评估三维人脸语音动画系统,用主、客观评价的方式进行实验对比和分析,实验结果表明:本文方法产生的口型动画更为逼真,且符合汉语发音的习惯。