【摘 要】
:
音频驱动的说话人脸生成旨在使用任意一段语音和目标人物的人脸图像生成该人物的说话视频。这项技术可以应用于游戏制作、虚拟主播、线上教育、电影编辑等场景。然而,由于缺乏高分辨率的视听数据集,目前的研究方法不能有效合成高分辨率的说话人脸视频,针对任意身份人物生成的唇部运动与音频同步程度并不高。此外,现有的方法注重于脸部质量和唇音同步,所生成的视频中头部姿势是固定的,忽略了头部运动的自然性。针对以上问题,本
论文部分内容阅读
音频驱动的说话人脸生成旨在使用任意一段语音和目标人物的人脸图像生成该人物的说话视频。这项技术可以应用于游戏制作、虚拟主播、线上教育、电影编辑等场景。然而,由于缺乏高分辨率的视听数据集,目前的研究方法不能有效合成高分辨率的说话人脸视频,针对任意身份人物生成的唇部运动与音频同步程度并不高。此外,现有的方法注重于脸部质量和唇音同步,所生成的视频中头部姿势是固定的,忽略了头部运动的自然性。针对以上问题,本文对说话人脸生成技术开展研究,主要研究工作以及创新点如下:一、提出了一种基于唇音同步的高清说话人脸生成算法,以生成高分辨率、唇部动作与语音同步的说话人脸视频。首先,本方法的高清人脸生成网络根据输入信息生成与音频对应的说话人脸图像,然后采用人脸重建模块对生成图像进行超分辨重构来恢复图像的脸部边缘和纹理细节。同时,通过双注意力机制的唇音同步判别器来准确判断生成图像中嘴部动作与音频的同步程度,使用提前训练好的唇音同步判别器监督高清人脸生成网络生成准确的唇部运动。通过实验证明了本方法能够有效生成唇音同步的高清说话人脸视频。二、提出了一种基于三维人脸模型的说话人脸生成算法,针对生成的说话人脸视频中头部运动不自然问题进行了改进。该方法采用三维人脸模型对人脸图像进行三维重建,用参数表示脸部形状、表情、姿势等信息。该方法还使用了一种基于时延的长短时记忆网络的语音特征提取网络从音频中预测出表情参数和姿势参数,再与图像的人脸参数相结合生成新的三维人脸。然后将该三维人脸和背景融合后的图像输入到人脸图像生成网络中进行渲染,输出的人脸图像与真实图像通过判别器进行对比,最后生成高质量的说话人脸图像。实验结果表明,输入不同的音频,该方法都可以生成头部运动自然的说话视频。三、构建了一个高清中文视频数据集,其中包括五位新闻主播,共4600个视频段,总时长约为530分钟。该数据集是从公开的高分辨新闻视频中挑选裁剪的,有着背景噪音小、主播发音标准和姿态端正等特点,适合于说话人脸生成任务。
其他文献
在“十三五”时期收官之年,中国经济规模首次突破100万亿,实现了“十三五”期间6.7%的年均增长速度,高于目标增速0.2个百分点,仅长三角沪苏浙皖三省一市占比全国国土4%、人口不到10%的地区共实现生产总值24.5万亿,年均增速高达7.2%,在领先全国经济总量与增速上做出了区域性的表率。随着经济的持续高速发展,当前社会发展结构与动能转换相对弱化,我国经济社会发展面临着增速与效益不匹配的困境,如何将
在城市化快速发展的过程中,环境中的各种资源被不断开采和利用,导致了自然景观的破坏和鸟类栖息地面积的减少,这些变化会影响着鸟类群落的生存和稳定。由于鸟类群落对栖息地质量的要求较高,因此,城市景观格局的合理配置对鸟类群落的稳定性具有关键作用。城市景观中土地覆被格局与城市鸟类群落多样性的关系非常密切,这可能是由于鸟类群落对不同环境中的食物资源和栖息条件都有较强的依赖性。然而,土地覆被格局对鸟类群落的具体
自19世纪以来,“卡门”形象一直是人们关注的焦点,随着时代的不断推进与发展,大众对其音乐鉴赏的视域从歌剧拓宽至音乐剧。2016年音乐剧《卡门·古巴》一经上演便好评如潮,令人耳目一新。本文通过四个部分进行论述:第一部分,说明选题依据、论文特色及论文创新,并剖析国内外科研状况;第二部分,描述该剧中卡门的人物形象,介绍这部音乐剧以及剧中唱段《Amor》的背景;第三部分,通过分析唱段的重要性、唱段中的特色
随着5G以及无线移动通信的发展,大规模多输入多输出(Massive Multiple Input Multiple Output,Massive MIMO)技术已经成为通信领域的研究热点。但随着天线阵列的越来越大,使得接收机的设计变得愈加困难,而复杂度过高的检测算法也越来越难以在实际工程中得到应用。因此,如何在大规模MIMO系统中设计出一种检测性能优良,运算复杂度较小的检测算法是该技术发展的关键。
游戏概念由来已久,康德和席勒是在审美领域加以探讨。伽达默尔解释学中的游戏思想是从艺术经验的游戏特性出发,进而引向理解游戏和语言游戏。本文将以此为切入点,重点梳理伽达默尔关于游戏思想的基本内容,阐发其存在论、真理论的意义,并对其游戏思想的当代价值与哲学意义进行深入探析,提出自己的思考和见解。本文共分为四章。第一章主要是对哲学史上的游戏思想进行一些梳理。游戏思想贯穿着整个哲学史,通过纵向的历史视角追溯
第五代移动通信技术(5G)发展欣欣向荣,而天线作为无线通信领域中必不可少的器件,其性能的优劣将影响通讯系统的品质。为了满足5G通信技术的发展需求,多输入多输出(MIMO)天线凭借着能解决信号多径衰落、增加系统容量和提升频谱利用率等特点被广泛应用。小型化、多频段、高增益等特点是天线发展的核心方向,但在MIMO天线中小型化和高隔离度是相互矛盾的,因此如何在小型化的基础上实现MIMO天线的高隔离度仍是一
国际汉语教学中多义词是词汇教学的重要组成部分,在初级阶段就有一定数量的多义词教学任务。对学习者而言,掌握多义词的意义和用法并辨析在具体语境下适用哪个义项都有一定的难度,因此了解目前学习者使用多义词的规律继续探索合适的教学方法,对推动汉语多义词和词汇教学发展仍有重要意义。本文以初级双音节多义词为研究对象,整理出《国际中文教育中文水平等级标准》中共619个初级双音节多义词,并对其义项数量和义项词性做了
随着传感器网络、计算机等相关技术的发展,声源定位技术已广泛应用在工业检测、视频会议、智能机器人等不同领域,其原理是从接收到的声信号中提取相关特征参数,用于求解声源目标的位置。目前,国内外的研究者致力于提高声源定位系统的性能,主要研究集中在抗噪性、定位精度、实时性等方面。本文以无线传声器网络定位为背景,论文的主要研究工作包括:1、针对实际环境中环境噪声和混响等干扰因素导致时延估计性能下降问题,研究讨
极简主义理念产生于20世纪60年代。在艺术领域里,极简主义创作理念对建筑设计、装饰设计、时尚设计,以及绘画、雕塑等创作活动,都产生了广泛影响。繁中求简、计白当黑,一直是中国传统文人画的重要审美理想之一。上世纪80年代以来,极简意趣也每每出现在一些工笔画家的画面中,并成为笔者所追求的绘画形式。本文以极简主义形式绘画作为切入点,梳理其发展的基本历程,解析中国传统绘画中“极简”形式构成的主要特征,着重简