面向通用人体视频生成的级联GAN方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：hua1kai

【摘要】

：

【作者】

：

韦东旭

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

给定目标动作描述（target motion）和目标外貌描述（target appearance）作为输入,人体视频生成旨在合成对应动作和外貌下的新视频。这种人为可控的高质量人体视频合成技术在娱乐短视频、影视制作、游戏等行业都具有广泛的应用前景。同时,合成的可控性意味着可以利用该技术创造出大量自定义的有标签人体视频数据,这对于现今数据量需求巨大的计算机视觉的其他领域,也具有重要的价值。近几年来,尽管在生成对抗网络（Generative Adversarial Network,GAN）及其变体方法上的研究推动了人体视频生成领域的快速发展,其仍存在一些不可忽视的问题需要解决,包括网络对外貌控制的通用性、生成视频的空间和时间一致性、外貌自遮挡处理能力。它们分别对应论文第三、四、五章创新点所关注的主要内容。此外,随着应用需求的拓展,人体视频生成的内涵也被不断丰富,设计一种统一的同时支持多种任务的模型框架也成为了领域内的研究趋势,该问题在论文的第五章中也得到了深入的探索。论文针对上述人体视频生成领域存在的问题展开研究,从单纯基于生成对抗网络,到将生成对抗网络与变形估计相结合,再到改进变形结合的方式,提出了一系列的方法。这些方法的共同点在于它们都将人体视频生成任务分成了多个连续的子任务,并分别设计了以生成对抗网络为基础的相互级联的多个模型,层次递进地去实现各个子任务。因此,从方法的框架出发,论文可以被概括为面向通用人体视频生成的级联GAN方法研究。具体地,论文的主要研究内容和创新点包含如下几个方面:第一,针对此前的基于生成对抗网络的方法缺乏对目标外貌的控制能力,导致单个模型只能专用化地生成包含特定人物和场景外貌的视频的缺陷,论文提出了一种多源外貌一致的生成对抗网络,将对外貌的多源解耦和控制从输入到输出贯穿整个生成过程,如此实现外貌可控的通用人体视频生成。为了获取多源可控的目标外貌描述作为输入,论文借助语义分割将人体解耦成多个部位,对应不同的输入源,并设计了一种基于姿态相似度的多源筛选方法,以保证每个部位输入获取的独立性和最优性。为了生成高质量且外貌可控的人体图像,论文采用了级联的生成方式,先生成稠密的动作描述,建立输入到输出的逐像素映射关系,以允许更精准的动作控制;再在稠密动作描述的基础上生成完整图像,同时借助多源外貌一致性判别器,解耦不同人体部位的生成,实现各部位独立的外貌控制。大量的实验表明,该通用化方法具有良好的外貌可控性,其分阶段级联的生成方式也提升了生成视频的质量,性能优于此前领域内最先进的专用方法,在舞蹈视频数据集上将SSIM指标提高了 4.2%,PSNR指标提高了 2.08 dB。第二,针对现有方法生成的图像（尤其是衣服区域）缺乏空间和时间一致性的问题,论文提出了一种精细化流变形辅助的生成对抗网络,以流变形代替基于GAN的生成来提升空间一致性,并施加基于变形的时序约束来提升时间一致性。其中,空间一致性要求输出图像像素间的空间排列与输入外貌图像一致,从而保留输入目标外貌中的纹理和颜色细节,如衣服的花纹和图案等;时间一致性要求连续多帧图像中各像素随时间变化的位置变化要与实际的人体运动保持一致,从而达到视觉上连贯的视频效果。具体地,论文设计了一种精细化流变形网络来预测变形流,其通过对输入外貌中的衣服图像施加变形来获取新的图像,代替之前级联框架中基于GAN的衣服图像生成。通过精细化的变形,论文在不破坏输入外貌中原有像素间空间位置关系的前提下实现了衣服区域与目标动作的精确对齐,无损地保留了原有衣服的纹理和颜色细节,提升了图像的空间一致性。同时,论文还提出在连续帧的变形流之间施加帧间光流的约束,显式地保证所有像素的运动变化在时序上连贯,从本质上提升了生成视频的时间一致性。实验表明,基于精细化流变形生成衣服区域的方式显著提升了生成视频的时空一致性,其与GAN在非衣服区域生成方面的优势相结合,可以显著提高生成视频的质量,性能优于上一创新点中提出的方法,在舞蹈视频数据集上将SSIM指标提高了 1.4%,PSNR指标提高了 1.16 dB,尤其是与时间一致性紧密相关的TCM指标提高了 17.4%。第三,针对以上介绍的变形估计结合生成对抗网络的方法缺乏对输入外貌自遮挡情况的感知,容易导致生成的图像中包含不合理的图案和花纹等现象,论文提出了一种自遮挡感知变形融合的生成对抗网络。在上述精细化流变形网络的基础上,设计了自遮挡感知分支,除估计变形流外,还预测用于描述变形后图像自遮挡情况的掩膜。在生成过程中,具备自遮挡感知的生成对抗网络模型可以自适应地对被遮挡区域进行特征补全,并与变形后未遮挡的区域进行特征融合,相当于利用生成对抗网络的生成新内容的能力降低了方法对输入外貌完整性的依赖。此外,论文基于该方法,实现了统一框架下的多任务协同,使得一次性训练的模型可以同时支持多种人体视频生成任务。通过实验,论文验证了该方法在输入外貌存在自遮挡的情况下,可以明显提升生成质量,性能优于上一创新点中提出的方法,在时装图片数据集上将SSIM指标提高了 4.2%,PSNR指标提高了 1.65 dB。并且,论文在多个生成任务（包括:人体动作迁移、外貌编辑、视频修复）上验证了其多任务统一的能力,展现了良好的应用前景。

其他文献

一种草菇房加温装置及其使用方法

期刊

宽光谱硅基石墨烯电荷耦合器件研究

围绕后摩尔时代新器件的挑战,突破硅基光电器件传统能效极限,实现高性能宽光谱探测是信息传感技术发展的关键。以石墨烯为代表二维材料具有独特的能带结构以及优异的光学和电学性能,为新型宽光谱图像传感器的研究拓展了一个新的思路。结合石墨烯宽谱吸收、强场效应放大、超快的电子-电子散射等特性与硅基技术的低噪声、低成本等优势,基于石墨烯-硅体系的新型光电探测器有望实现在宽光谱探测技术上的突破。论文主要研究了基于石

学位

涎液化糖链抗原、基质金属蛋白酶-7和透明质酸联合诊断结缔组织病合并间质性肺疾病的临床价值

目的：探讨涎液化糖链抗原（KL-6）、基质金属蛋白酶-7（MMP-7）和透明质酸（HA）联合诊断结缔组织病合并间质性肺疾病（ILD）的价值。方法：选取2017年12月至2019年12月本院收治的69例结缔组织病合并ILD患者作为本文研究对象（合并ILD组），以单纯结缔组织病患者67例，同期体检的60例健康受试者分别作为单纯结缔组织病组和对照组。比较三组受试者血清KL-6、MMP-7和HA,Logi

期刊

无线网络中的大规模低时延分布式接入机制研究

随着以5G技术为代表的信息产业迅猛发展,智能设备和互联网应用层出不穷,无线通信系统面临海量设备接入与更快服务速率的需求。然而,无线通信系统中的频谱资源极其有限,如何高效利用现有通信资源,为迅猛增长的通信需求提供可靠服务,成为业界面临的重大挑战。无线网络中的接入技术作为连接用户终端和网络服务设备的关键环节,对于整个通信体系的性能具有重要的影响作用。为了进一步满足日益增长的海量设备接入需要,提升无线通

学位

多光谱及多模态图像全局配准方法

随着光电传感技术的蓬勃发展,多光谱（或多模态）图像在计算机视觉和计算成像领域的作用愈发重要,其在遥感分析、场景识别、图像分割、行人检测、行人重识别和图像去噪/去雾/去模糊等任务中表现出众。然而,多光谱（多模态）图像在拍摄过程中易出现成像设备移动和切换等问题,所采集图像很大概率是非配准的,从而对上述视觉任务造成很大困难。因此,图像配准技术对于多光谱和多模态视觉应用至关重要。多光谱（多模态）图像配准主

学位

关于列宁新经济政策的三大误读与正解

列宁新经济政策在社会主义发展史上具有里程碑式的意义。对新经济政策的认识，存在“暂时论”“退却论”“进攻准备论”等误读。“暂时论”认为新经济政策是应对危机的权宜之计，而非长期执行的策略；“退却论”认为新经济政策是向资本主义的“蜕变”,是俄国在补资本主义的“课”;“进攻准备论”认为新经济政策是为了对资本主义经济发起“进攻”而做的准备，主张停止退却，转入进攻。这些误读曲解了列宁对新经济政策的真实设想，忽

期刊

基于硅基微环谐振器的单光子源和交换网络研究

单光子源是量子计算、量子通信网络中必不可少的组成之一,K.L.M提出利用测量引入非线性过程,为线性量子计算铺平了道路。线性量子计算需要高质量的单光子源,需要单光子源具有单光子、确定性、高不可分辨率以及高亮度的特性。硅基集成的单光子源能够与互补金属氧化物半导体（Complementary Metal Oxide Semiconductor,CMOS）工艺兼容,可大规模集成,而且具有相位稳定,易于控制

学位

基于宏观组装石墨烯纳米膜的红外光电探测器

作为红外探测系统最核心的部件,红外光电探测器的性能会对红外探测技术智能化、小型化、低成本、高性能的发展起到决定性的作用。自红外光电探测器概念提出以来,以碲镉汞、铟镓砷为代表的传统红外光电探测器在军事、安防、航天、国民经济等领域都发挥着重要的作用,随着人们对红外光电探测器需求的不断增长,大幅提高探测器的性能,降低探测器的尺寸、重量、功耗和价格迫在眉睫。传统的红外光电探测器在材料生长、制造工艺、性能、

学位

基质金属蛋白酶-7在胆道闭锁中的研究进展

金属蛋白酶-7（MMP-7）是锌依赖性内肽酶家族中的重要成员，其参与细胞外基质中各种蛋白质的降解，且在白细胞浸润和组织炎症中也发挥重要作用。MMP-7在正常肝脏中不表达或很少表达，而在胆道闭锁中表达增强。研究发现MMP-7能够有效地鉴别胆道闭锁与其他胆汁淤积性疾病，对胆道闭锁的诊断有很高的敏感性和特异性，对胆道闭锁的肝衰竭和肝移植有一定的预测作用。因此，提高对MMP-7的认识，早期诊断胆道闭锁是当

期刊

抢抓智能网联汽车“风口” 成都布局万亿级车载智能系统产业赛道

＜正＞站在新风口，多地积极推出举措，抢抓发展机遇，加速布局智能网联汽车产业。作为汽车与人工智能、大数据、互联网等领域的高度集合体，车载智能系统产业肩负着推动制造业高端化、智能化、绿色化发展，助力制造业转型升级的重要使命。为释放车载智能系统产业高能级平台效应，充分发挥成都高新区作为成都软件产业核心策源地和主要承载区的资源优势，助力成都推进制造强市建设，近日，

期刊

面向通用人体视频生成的级联GAN方法研究

与本文相关的学术论文