论文部分内容阅读
虚拟人脸动画技术是人机交互领域一个重要的研究方向。围绕人脸动画的生成方法以及人脸动画表达的逼真效果,在可视语音合成、可视韵律合成、人脸情感表达方面已经做出了很大一部分成果。在人脸动画领域中,使用模态映射的方法生成人脸动画的工作越来越突出,在应用中也占据越来越大的比重,但是如何提高映射模型的质量,并利用该映射模型来产生更加逼真的人脸动画,一直是一个比较复杂的难题。由于用户对人脸拓扑结构异常熟悉,以及人脸拓扑结构的异常复杂,现阶段能被用户所广泛接受的人脸动画系统还少之又少。
随着人机交互的发展,人们对交互式虚拟人的应用越来越关注。交互式虚拟人反映了人类对自身虚拟化的持续关注。它也代表了很多先进技术的发展水平。和人脸表达不同的是,虚拟人表达更多的是使用骨骼模型,这就需要在骨骼模型上建立相应的人脸动画和身体姿态控制等。这些所有的方面都要做好往往很难,这也是交互式虚拟人系统受到持续关注的原因之一。
本文试图从多模态融合的角度来建立人脸动画的映射模型,并在此基础上,结合三维商业建模软件来建立一个交互式虚拟人平台,并将其应用到具体的应用场景中。围绕人脸动画和交互式虚拟人,本文的主要工怍有:
①提出了一种基于基元选取的方法来解决语音驱动人脸唇部动画问题。语音驱动人脸动画一直是人脸动画方面比较热的研究方向。如何在语音和人脸唇动之间建立映射模型,并在合成时得到逼真而平滑的人脸唇动,并且能够实现实时性的系统一直是研究的关注点。本文主要针对如何实现一个实时的人脸唇部动画系统而建立起一个简单而有效的映射模型。利用该映射模型,能生成平滑而逼真的语音驱动唇部同步动画。由该算法实现的系统,易于实现,可同时用于男女声的语音驱动人脸动画,能很好满足实时性的要求。
②提出了一种基于两层聚类以及决策树相结合的算法来解决句子级别上的可视韵律合成问题。针对具有弱耦合特征的文本韵律到头动的映射问题,本文在两种假设上建立这种映射模型,一是在不同的情感状态下头动的基本类型不同;二是人脸头动模型往往具有个性化。在这两种假设的基础上,本文通过分类和回归树模型建立了文本韵律到不同情感下的基本头动类型的映射,这些基本头动类型反映了同一个表演者的个性化头动模式。当输入新的文本时,通过文本分析模块提取的文本参数输入到映射模型中来求取头动的转角参数,从而生成带有韵律特征的虚拟人脸头动。通过该方法生成的虚拟人头动能极大地增强人脸动画的逼真度。
③建立了一个融合文本驱动唇动、可视韵律合成、人脸表情表达、身体运动的虚拟人动作表达系统。交互式虚拟人研究需要虚拟人的表达能像真实场景中人与人对话中所表现出的动作姿态,并表现出相应的智能和个性。为了建立这种拟人的虚拟人动作,本文使用映射的方法,在由控制端输入文本的基础上,建立起语音合成模块、可视语音合成模块、可视韵律模块,并通过基于规则的方法建立起人脸情感表达模块、身体表达模块。整个虚拟人表达系统能以自然娴熟的动作传达虚拟人的交互信息。
总地来说,本文对人脸动画、多模态映射模型、语音驱动人脸动画、可视韵律合成以及交互式虚拟人等方面做了深入的探索。