基于文本/语音驱动的高自然度人脸动画生成

来源 :中国科学技术大学 | 被引量 : 2次 | 上传用户:dapeng0429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸动画生成,旨在给定任意一段语音或文本,生成高自然度的、唇音同步的人脸动画。唇音同步的人脸动画在电影制作和数字电脑游戏等行业都具有广泛的应用前景。此外,人脸动画也可以提供有关发音器官运动位置的视觉信息,从而可以应用于语言教学或是针对听觉障碍的患者进行辅助治疗。然而,该任务需要实现从一维语音信号或文本信息到三维时变图像的映射。同时,生成一系列高真实感的视频帧,需要考虑人脸面部表情的真实性、视频帧之间的时间连续性、唇部运动与语音的同步性等多方面因素,而且人类对面部动作和视听同步中的细微异常都很敏感。这些问题都给该任务带来了巨大的挑战。本文在对前人工作进行详细分析和总结的基础上,分别从三个角度(即基于三维人脸模型的人脸动画生成、基于二维图像的人脸动画生成以及基于三维人脸模型与二维图像融合的人脸动画生成)对人脸动画的合成进行深入研究,主要工作包括以下几个方面:第一,基于三维人脸模型的人脸动画生成任务,本文采用发音器官运动轨迹驱动三维人脸模型来实现人脸动画的生成。该方法主要分为两部分:语音或文本到视觉的转化以及三维人脸建模。在本文中我们重点分析如何更好地实现语音或文本到视觉的转化过程。针对此问题,我们分别从传统的隐马尔可夫模型以及深度学习角度进行分析。对于传统方法,我们研究了基于文本驱动的发音器官运动轨迹估计,并对比分析了单音素、三音素以及完全上下文相关的隐马尔可夫模型对轨迹预测精度的影响。对于深度学习方法,我们提出了一种bottleneck long-term recurrent convolutional neural network(BLTRCNN)的网络结构。在此网络结构中,引入了瓶颈特征,其不仅可以视为文本特征的紧凑表示,而且还可以学习到有用的发音器官运动信息。然后将瓶颈特征、音频特征和韵律特征相结合作为网络的输入,来实现更好的预测性能。此外,在BLTRCNN网络中引入跳跃连接,将不同层学习到的特征传递给后续层,以此增加后续层的输入信息来提高预测精度。在此方法中,我们也分别研究了不同输入特征对预测精度的影响。经过实验证明,文本和语音融合共同作为输入时,预测精度最高。第二,基于二维图像的人脸动画生成任务,给定语音或文本作为输入时,本文采用深度学习方法合成高真实感、任意身份以及唇音同步的人脸动画。此方法包括两部分:嘴部关键点的预测以及视频生成。对于嘴部关键点的预测,采用时延LSTM网络结构,此网络既可以充分利用过去的信息,还可以探索未来的信息,从而大大提高了预测精度。此外,我们也探索了不同输入对关键点预测精度的影响。对于视频生成,本文提出了 Face2Vid网络结构。在Face2Vid中,采用光流对相邻帧之间的时间相关性进行建模,以保证视频在时间上的连贯性以及面部运动的平稳过渡。此外,在Face2Vid中,也采用自我注意力机制对空间相关性进行建模,来捕获整张人脸图像全局、长期的依赖性。在此工作中,我们提出的方法由完全可训练的神经网络模块组成,可以实现任意身份的人脸动画合成,具有很好的泛化能力。第三,基于三维人脸模型与二维图像融合的人脸动画方法既可以保证模型的可操作性,赋予动画准确且丰富的人脸姿态,又可以保留生成图像的细节纹理,合成照片级别的、高自然度的人脸动画。针对此任务,我们提出了一种基于三维人脸模型与二维图像融合的人脸动画生成方法。该方法包括三部分:(1)针对研究对象建立特定的三维人脸模型。对于此工作,采用RingNet的网络结构,该网络可以使研究对象的不同图像所产生的三维人脸模型具有很好的鲁棒性。(2)给定音频片段和三维人脸模型,生成唇音同步的三维人脸动画。针对此任务,采用VOCA的网络结构,此网络以身份标签为条件,可以合成不同说话风格的语音动画,具有很好的泛化性。(3)给定目标视频序列以及三维人脸动画获得到一系列人脸草图,采用视频合成算法实现人脸动画的生成。
其他文献
安徽是我国中医药文化发源地之一,是全国最大的中药集散地,拥有丰富的道地药材资源#本文整理安徽地方中药中有关睡眠的中药文献,对使用安徽地方中药治疗睡眠障碍提供参考。
新生代是改革开放以来经济转型和社会变革中成长起来的"独一代",具有典型的"特立独行"个性特征。本研究基于移动互联网时代人力资源管理模式变革,构建了积极沟通氛围、组织认
音乐与文学的关系一直是音乐界与文学界不可忽视和需要重视的问题。从原始社会时期,音乐与文学的关系就是一种“诗乐同源”、“词曲共生”的关系,但随着社会的进步和意识思想
目的观察芪苈强心胶囊对老年慢性心力衰竭(CHF)患者心功能、NT-proBNP、活动耐量及生活质量的影响。方法 170例老年CHF患者随机分为2组,对照组85例患者给予标准心力衰竭治疗,
旧城改造是城市发展进程中的必然产物,这是一个不可避免的过程。正确分析旧城改造项目中的风险因素,提出合理的预防及处理对策,对旧城改造项目有着积极的意义。
电力工业作为我国国民经济发展过程中最为关键的基础能源产业,电力改革不断深化的今天,传统的电力工程项目管理模式已经难以适应电力市场发展需求,电力工程项目管理模式只有
<正>胸腰段的脊髓前后动脉起源自肋间动脉和腰动脉,腹主动脉夹层动脉瘤的覆膜支架植入术后,因为造成肋间动脉或者腰动脉的闭塞,继而导致脊髓动脉,特别是脊髓前动脉的缺血,造
会议
<正>传统的物理学科教育重视物理知识的教学和技能的培养,但往往忽视了物理的"人文性",从而割裂了物理与社会生产、日常生活的联系,学生难以运用学到的物理知识、科学方法解
<正>我国正处于经济发展方式转变的攻坚阶段,北京也已步入以服务经济为主的后工业化发展时期,着力推进产业结构升级和城市空间布局优化成为城市发展建设的重要任务。作为首都
农产品流通联系着生产和消费,不仅能够解决农产品的有效供给问题,还能够进一步的满足消费的需求,并且反过来促进农业的发展进步。近几年以来,我国生鲜农产品在质量安全与成本