论文部分内容阅读
近年来,随着多媒体技术和人机交互技术的快速发展,人们越来越希望能够跟计算机进行自然流畅的交流。人类面部在交流过程中传递着大部分的沟通信息,如心情、精神状态等。因此,人脸表情动画的研究在近年的计算机动画研究中受到了广泛的关注,而口型动画是人脸表情动画中非常关键的一部分。本文主要工作是基于MPEG-4标准的面部动作编码对人脸口部区域进行提取编码,并针对汉语发音特点进行发音口型分类,并以此基本口型分类应用综合加权算法驱动汉语发音同步的口型动画。本论文基于MPEG-4标准和中文语言学理论,以SAPI5.0提供的文本语音合成(TTS)引擎、OGRE三维虚拟仿真引擎作为主要的开发工具,实现了一个基于综合加权算法的汉语语音同步的动画系统。该系统主要由三部分组成:文本分析系统;语音合成系统;语音与口型动画同步系统。系统的执行流程是:首先,文本分析系统针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流;其次,基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参数驱动模型的形变,从而实现人脸口型动画;最后将合成的汉语语音与人脸口型动画同步,实现较为逼真的人脸口型动画。从而有效的解决汉语语音发音与口型动画的同步问题。由于本系统主要是针对汉语发音口型建立的动画模型,在动画驱动过程中主要研究了人脸口部区域的动画变化,并没有考虑到整个的人脸动画的驱动,如表情动画,舌头动画等。这将是论文进一步研究的研究点。本文提出的口型动画方案具有很广泛的应用前景,可以应用在服务行业中的虚拟服务员、低频带的网络通讯和视频会议、电影、游戏和广告中的角色模拟等许多领域,增强多媒体虚拟现实的真实感。另外,本研究可以很好的推动可视化的语音动画合成的发展。