语音驱动的人脸视频合成系统的设计与实现

来源 :延边大学 | 被引量 : 0次 | 上传用户:pwd19881217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类进化心理学的研究结果表明人从语音序列与面部动画的双模态输入中所获得的信息比其中任何一个单一模态输入所获得的信息都多,而且对信息的理解更加有效。语音动画是指合成出与语音序列一致或同步的人脸动画的一种技术,该技术在人机交互、电影、游戏等领域具有广泛的应用价值,是虚拟人物的人脸表情和动画生成的核心技术基础之一。本文主要研究语音动画中面部特征与语音特征参数之间映射关系模型的建立,并设计和实现一个语音驱动人脸视频合成系统。首先,本文提出了基于深度双向长短时记忆网络(Bi-directional Long Short Term Memory,Bi-LSTM)的人脸特征与语音特征参数之间的映射模型。该模型采用同步的音视频双模态信息进行训练,得到语音信号的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)与人脸约束局部模型(Constrained Local Model,CLM)下人脸特征点的映射关系。其次,提出了语音驱动的人脸动画生成算法。该算法通过训练好的映射模型,得到驱动语音的人脸特征点参数的预测输出,在此基础上结合仿射变换和视频编码技术实现了人脸动画视频的生成。实验使用约1000分钟奥巴马时任美国总统期间的每周电台演讲视频作为训练语料,映射模型实验结果表明,本文提出的基于Bi-LSTM映射模型明显优于单向的长短时记忆网络(Long short-term memory,LSTM),而且在进行参数调优后取得了 89.5%预测准确率。语音驱动的人脸动画生成结果表明,合成的视频具有自然、流畅的效果,视频帧率达到100fps。在输入相同的驱动语音时,合成视频的客观评价指标误差平方和(the Sum of Squares due to Error,SSE)的平均值为9.19,对合成视频的主观评价指标视频流畅度和逼真度,在满分10分的情况下,分别得分7.84和8.98分。最后,根据前述的映射模型和人脸动画合成方法,本文设计和实现了一个基于B/S(Browser/Server,浏览器/服务器模式)架构的语音驱动的人脸视频合成系统,系统拥有良好的可操作性,可以应用于任何人声的驱动语音合成出自然、同步的人脸视频。
其他文献
目的探讨子宫内膜异位症(EM)合并不孕患者血清中MMP-9(基质金属蛋白酶-9)、TIMP-1(基质金属蛋白酶抑制剂-1)、sflt-1(血管内皮生长因子可溶性受体)、IGF-I(胰岛素生长因子-1)、MCP-1(单核细胞趋化蛋白-1)表达水平及临床意义。方法收集2017年1月1日至2019年1月1日本院妇科门诊收治50例单纯EM患者(单纯EM组)、35例EM合并不孕患者(EM合并不孕组)和30例
工业现场多变量系统包含不确定性、多时滞、强耦合、输入输出受约束等特征,往往存在模型难以精确刻画等问题,采用传统单一的系统控制器设计方法难以满足高精度控制品质的需求
语言是人类表达思想、传递情感的介质。殊不知在交际场合,人们除了使用语言外,还利用非言语来传达自己的感情和信息。而空间语作为非言语交际的无声语言,以独有的特性表现着自己的交际准则和要求。文化不同,对空间语的理解就会有所偏差,价值观不同,对于空间语的态度也不尽相同。基于对空间语的不同认知形成了不同的空间观念,故而对空间距离的需求不同;对个人领域和拥挤的态度不同;对空间安排与地位关系的价值观念不同。正因
随着中国经济持续发展,采矿行业也随之发生着变革。虽然我国为世界采矿行业的发展贡献了一份力量,但在采矿设备方面,仍然任重而道远。近年来,国外在采矿设备方面有较为先进的设计方案,并已取得显著的成效,值得我国借鉴和学习。因此该领域科学报告的汉译工作十分重要。本翻译实践报告的源文本选自《采矿设备和新科技的人本设计》一书,属于科技文本,其中不仅有规范的英语表达,还有大量专业术语。译者选取此材料,旨在通过翻译
信号波达方向(DOA,Direction Of Arrival)估计是信号处理领域的研究热点之一。本文针对二维DOA估计算法存在的估计精度不高、计算复杂度过大以及相干信号使协方差矩阵出现秩亏损等问题,在分析已有算法的基础上,主要做了以下三个方面的改进:1.当均匀面阵为接收阵列时,改进了基于传播算子(PM,Propagator Method)算法。该改进算法利用划分子面阵之间的几何平移特性,通过传播
化学用语是化学学科的专用语言,是联系宏观和微观的桥梁,体现了化学学科核心素养,是人们理解物质化学变化最简捷的符号表达系统。高中有机化学用语教学的现状并不令人满意,这是因为有机化学具有繁多的分子式、结构式、结构简式、有机反应方程式等重难点知识,学生普遍会出现兴趣缺失或厌学情绪。因此,对高中生有机化学用语学习现状进行调查,以建构适当的教学策略是需要解决的问题。本文基于对已有文献的分析,以有机化学用语调
19世纪末以来,西方的很多画家不自觉地感受绘画时间的不同、生活节奏的变化,形成了当代艺术。我们也进入了一个复杂多元化的元素当中,社会的优越,独生家庭的环境和庇佑,让我们成为了温室里的花朵。年轻的我们一直处于芳年期,在社会和大人的眼里期待我们有一个好的理想和抱负。学习卢西安·弗洛伊德的油画语言和画面结构来表现西格蒙德·弗洛伊德精神分析理论中年轻人在当今社会中的焦虑、自恋、呆滞等等复杂的心情。西格蒙德
随着我国农业的飞速发展,农业面源污染问题十分突出。目前,我国农业面源污染的主要来源为畜禽水产养殖、化肥、农药、农作物秸秆及废旧地膜等,由此导致的水体富营养化问题突出,赤潮、绿潮时有发生。打好农业面源污染防治攻坚战,加快推进生态文明建设,率先解决重要水源区和环境敏感区的农业面源污染问题已迫在眉睫。云南省玉溪市位于滇中腹地,有高原断陷湖泊抚仙湖、星云湖和杞麓湖(下文均用“三湖”表示)。三湖流域农民对土
目的:通过体外细胞实验观察葡萄籽原花青素(GSPE)对造影剂所致的人肾小管上皮细胞(HK-2)凋亡损伤的保护作用,并探讨其保护作用的相关机制。方法:体外培养HK-2细胞,先用不同浓度的GSPE(10、20、40、60、80mg/L)与细胞共培养不同时间(6、12、24、36、48、72h),采用四甲基偶氮唑比色法(MTT)检测其对HK-2细胞增殖的影响。以及GSPE按上述浓度和时间与HK-2细胞共
石油资源的枯竭以及环境问题的日益恶化,使得人类对于清洁可再生能源以及高性能储能器件的需求迫在眉睫。超级电容器是一种介于传统的电容器以及二次电池之间的储能设备,具有