论文部分内容阅读
人脸动画生成,旨在给定任意一段语音或文本,生成高自然度的、唇音同步的人脸动画。唇音同步的人脸动画在电影制作和数字电脑游戏等行业都具有广泛的应用前景。此外,人脸动画也可以提供有关发音器官运动位置的视觉信息,从而可以应用于语言教学或是针对听觉障碍的患者进行辅助治疗。然而,该任务需要实现从一维语音信号或文本信息到三维时变图像的映射。同时,生成一系列高真实感的视频帧,需要考虑人脸面部表情的真实性、视频帧之间的时间连续性、唇部运动与语音的同步性等多方面因素,而且人类对面部动作和视听同步中的细微异常都很敏感。这些问题都给该任务带来了巨大的挑战。本文在对前人工作进行详细分析和总结的基础上,分别从三个角度(即基于三维人脸模型的人脸动画生成、基于二维图像的人脸动画生成以及基于三维人脸模型与二维图像融合的人脸动画生成)对人脸动画的合成进行深入研究,主要工作包括以下几个方面:第一,基于三维人脸模型的人脸动画生成任务,本文采用发音器官运动轨迹驱动三维人脸模型来实现人脸动画的生成。该方法主要分为两部分:语音或文本到视觉的转化以及三维人脸建模。在本文中我们重点分析如何更好地实现语音或文本到视觉的转化过程。针对此问题,我们分别从传统的隐马尔可夫模型以及深度学习角度进行分析。对于传统方法,我们研究了基于文本驱动的发音器官运动轨迹估计,并对比分析了单音素、三音素以及完全上下文相关的隐马尔可夫模型对轨迹预测精度的影响。对于深度学习方法,我们提出了一种bottleneck long-term recurrent convolutional neural network(BLTRCNN)的网络结构。在此网络结构中,引入了瓶颈特征,其不仅可以视为文本特征的紧凑表示,而且还可以学习到有用的发音器官运动信息。然后将瓶颈特征、音频特征和韵律特征相结合作为网络的输入,来实现更好的预测性能。此外,在BLTRCNN网络中引入跳跃连接,将不同层学习到的特征传递给后续层,以此增加后续层的输入信息来提高预测精度。在此方法中,我们也分别研究了不同输入特征对预测精度的影响。经过实验证明,文本和语音融合共同作为输入时,预测精度最高。第二,基于二维图像的人脸动画生成任务,给定语音或文本作为输入时,本文采用深度学习方法合成高真实感、任意身份以及唇音同步的人脸动画。此方法包括两部分:嘴部关键点的预测以及视频生成。对于嘴部关键点的预测,采用时延LSTM网络结构,此网络既可以充分利用过去的信息,还可以探索未来的信息,从而大大提高了预测精度。此外,我们也探索了不同输入对关键点预测精度的影响。对于视频生成,本文提出了 Face2Vid网络结构。在Face2Vid中,采用光流对相邻帧之间的时间相关性进行建模,以保证视频在时间上的连贯性以及面部运动的平稳过渡。此外,在Face2Vid中,也采用自我注意力机制对空间相关性进行建模,来捕获整张人脸图像全局、长期的依赖性。在此工作中,我们提出的方法由完全可训练的神经网络模块组成,可以实现任意身份的人脸动画合成,具有很好的泛化能力。第三,基于三维人脸模型与二维图像融合的人脸动画方法既可以保证模型的可操作性,赋予动画准确且丰富的人脸姿态,又可以保留生成图像的细节纹理,合成照片级别的、高自然度的人脸动画。针对此任务,我们提出了一种基于三维人脸模型与二维图像融合的人脸动画生成方法。该方法包括三部分:(1)针对研究对象建立特定的三维人脸模型。对于此工作,采用RingNet的网络结构,该网络可以使研究对象的不同图像所产生的三维人脸模型具有很好的鲁棒性。(2)给定音频片段和三维人脸模型,生成唇音同步的三维人脸动画。针对此任务,采用VOCA的网络结构,此网络以身份标签为条件,可以合成不同说话风格的语音动画,具有很好的泛化性。(3)给定目标视频序列以及三维人脸动画获得到一系列人脸草图,采用视频合成算法实现人脸动画的生成。