情绪可控的语音驱动人脸表情动画研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:CHENHUANHUAN7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音驱动人脸动画是使用语音作为数据源,合成与语音匹配的人脸表情动画技术。本方向的研究主要探究人们日常生活中最直观的面对面对话交流,因此其研究成果具有广泛的应用价值。然而,人脸表情的维度具有很高的复杂性,因此如何合成自然、生动、具有丰富表现力的人脸动画仍然是尚未得到很好研究的问题。   首先,语音驱动人脸动画中关于唇部动画合成的研究尽管已经取得了许多成果,但是在人们对动画质量的要求日益严格的情况下,仅有唇部运动的语音动画远不能满足用户的需求。其次,人脸表情,即除受话语内容影响的唇部运动外,反映说话者情绪的脸部五官运动及头部运动是传达交流信息的重要途径,能为语音驱动的唇部动画增强表现力和临场沉浸感。然而,表情与语音不具有直观的对应关系,并且表情在人脸语音动画中具有丰富的变化,这些因素使得合成逼真生动的表情语音动画成为一个研究难点。再次,在当前语音情绪识别研究尚在起步阶段的情形下,从语音自动合成正确的情绪表情动画尚无成熟的技术。因此从工业应用的角度上看,语音驱动的人脸表情动画技术应提供情绪编辑的接口,方便用户针对不同的应用情景对所需的情绪表情动画进行交互定制。   基于上述背景,本文首先研究体现表情细节的语音驱动人脸动画方法,优化中性语音动画的合成效果使其更加自然和流畅;然后研究情绪可控的表情动画合成方法,实现了情绪表情的参数化,并提供了情绪表情的编辑方法,进而合成了生动逼真的表情动画。具体的研究成果如下:   (1)提出支持细节的语音动画合成方法   早前的语音驱动人脸动画研究工作大多仅关注与语音匹配的唇部动画合成,忽略了脸部其他五官的运动细节。合成的语音动画仅仅匹配了准确的唇型并经过平滑处理,不能模拟出真人说话时丰富细微的动态细节。   针对上述问题本文提出了支持细节的语音驱动人脸动画合成方法。首先,相比只合成唇部动画的方法,合成全脸范围的语音动画需要考虑更多的脸部运动特征,从而导致训练数据量大大增加。本文在数据处理阶段引入重采样技术压缩人脸语音运动特征的数据量。其次,考虑到脸部语音运动中丰富的动态细节信息很容易在数据处理过程和关系模型建立中丢失,本文在合成阶段使用统计合成余量技术从原始捕获数据中统计数据细节信息,并用直观简便的方法生成了语音运动的动态细节。   实验结果表明,重采样处理可以在不影响合成语音动画视觉效果的前提下将模型训练效率提高约九倍,并且具有动态细节的语音动画在视觉感受上更为自然和流畅。   (2)提出情绪可控的表情动画合成方法   在语音驱动人脸动画中研究的表情动画合成的工作具有一定的研究成果,但合成的情绪化表情缺乏自然丰富的动态变化。此外,情绪化表情与特定的应用情景相关,从应用的角度看,用户需要一种情绪表情编辑的接口。然而,已有方法一般难以对合成的表情动画进行控制或编辑。   针对上述问题,本文提出了情绪可控的表情动画合成方法。首先,特定语境下的情绪强度会随时间变化,甚至情绪种类也将随语境变化而变化,从而导致表情参数化较为困难。本文提出情绪分离的方法,从训练数据中定义出模特六大情绪——高兴、悲伤、愤怒、厌恶、害怕、惊讶的情绪表情基,采用优化方法从不同情绪的训练数据中计算得到对应情绪表情基的权重,从而完成情绪表情的参数化。此外,表情与语音不具有直观确定的关系,如何由语音信息推测表情参数以合成表情动画是一个关键技术难点。本文将前人在语音驱动表情动画研究中得到头部运动与语音韵律特征具有强相关关系的结论,以及前人在语音情绪识别研究中使用语音韵律特征作为情绪识别模式的依据进行拓展,将头部运动及情绪表情基权重整合成表情动画特征,建立描述其与语音韵律特征之间关系的统计模型。由于情绪表情基权重体现了训练数据的情绪表情动态特征,因此使用统计模型合成的表情动画具有与语音韵律匹配的自然动态。再次,针对情绪表情可编辑的需求,本文将由情绪分离方法得出的情绪表情参数作为用户情绪编辑的接口,构造了由情绪种类-强度-时间维度组成的情绪表情编辑空间,从而实现了对情绪表情的交互控制。   实验结果表明,本文的情绪分离方法可以有效地将与话语内容相关与情绪无关的语音动画,和与情绪相关与话语内容无关的表情动画从原始捕获数据中分离;使用语音韵律特征作为依据合成的表情动画具有自然生动的动态效果;提供的编辑空间可以满足用户编辑情绪种类、调节情绪变化强度、编排表情动画等控制需求。
其他文献
在设计师进行创新型产品设计过程中,早期的概念设计阶段是十分重要的。在该阶段,尤其是产品的外观设计,包括外形、颜色、纹理等,是概念设计最重要的一个环节。随着计算机技术的发
作为普适计算思想的深化和发展,环绕智能(Ambient Intelligence,AmI)的目标是实现物理空间、信息空间与用户空间的自然融合,以自适应、个性化及预判断的方式提供随需应变的服务
近年来,随着大数据处理和图形图像技术的应用的不断深入,三维数据可视化发展迅速,并成为了当前研究的热点,被广泛应用于气象、医学、地质、大数据分析等领域,三维数据可视化
面部特征点定位研究的目标是:在给定的人脸图像上,准确而快速地自动获得眼睛中心、眼角、鼻尖、嘴角及面部轮廓点等关键面部特征点的空间位置信息。它不仅是全自动人脸识别系
在信息技术和互联网技术发展的推动下,智能手机的普及引导了一次手机应用的革命,如今已进入迅猛发展的时代。用户拥有更多的自主选择权,但找到需要的或感兴趣的应用程序,就必须要
从视觉感知的角度来看,计算机图形学的终极目标是使计算机模拟的图像能够被人们有效认知和快速理解。传统的真实感绘制技术总是希望产生和显示足够多的细节,然而过多的细节可能
软件开放社区是一种新的软件服务形式,它以开放平台为基础由第三方开发者作为主要软件供应商,能够快速满足多样化的用户需求。Facebook和AppStore等软件开放社区已成为目前软件
为了使得应用具有更高的性能、可伸缩性和可用性,并且减少硬件成本,越来越多的互联网应用开发人员选择为应用在云基础设施上构建云服务。随着云服务开发的需求的增加,有必要为云
图像处理主要包括图像压缩、图像增强、图像复原、图像分割和图像分析等,其在许多应用领域受到广泛重视并取得了重大成就,如航空航天、生物医学工程、工业检测、气象、公安司法
随着GPS定位系统和无线网络技术的不断完善以及移动终端的大量普及,用户可以在需要时使用由移动终端提供的位置信息服务。例如滴滴打车之类的移动终端应用软件在发送位置需求