论文部分内容阅读
给定目标动作描述(target motion)和目标外貌描述(target appearance)作为输入,人体视频生成旨在合成对应动作和外貌下的新视频。这种人为可控的高质量人体视频合成技术在娱乐短视频、影视制作、游戏等行业都具有广泛的应用前景。同时,合成的可控性意味着可以利用该技术创造出大量自定义的有标签人体视频数据,这对于现今数据量需求巨大的计算机视觉的其他领域,也具有重要的价值。近几年来,尽管在生成对抗网络(Generative Adversarial Network,GAN)及其变体方法上的研究推动了人体视频生成领域的快速发展,其仍存在一些不可忽视的问题需要解决,包括网络对外貌控制的通用性、生成视频的空间和时间一致性、外貌自遮挡处理能力。它们分别对应论文第三、四、五章创新点所关注的主要内容。此外,随着应用需求的拓展,人体视频生成的内涵也被不断丰富,设计一种统一的同时支持多种任务的模型框架也成为了领域内的研究趋势,该问题在论文的第五章中也得到了深入的探索。论文针对上述人体视频生成领域存在的问题展开研究,从单纯基于生成对抗网络,到将生成对抗网络与变形估计相结合,再到改进变形结合的方式,提出了一系列的方法。这些方法的共同点在于它们都将人体视频生成任务分成了多个连续的子任务,并分别设计了以生成对抗网络为基础的相互级联的多个模型,层次递进地去实现各个子任务。因此,从方法的框架出发,论文可以被概括为面向通用人体视频生成的级联GAN方法研究。具体地,论文的主要研究内容和创新点包含如下几个方面:第一,针对此前的基于生成对抗网络的方法缺乏对目标外貌的控制能力,导致单个模型只能专用化地生成包含特定人物和场景外貌的视频的缺陷,论文提出了一种多源外貌一致的生成对抗网络,将对外貌的多源解耦和控制从输入到输出贯穿整个生成过程,如此实现外貌可控的通用人体视频生成。为了获取多源可控的目标外貌描述作为输入,论文借助语义分割将人体解耦成多个部位,对应不同的输入源,并设计了一种基于姿态相似度的多源筛选方法,以保证每个部位输入获取的独立性和最优性。为了生成高质量且外貌可控的人体图像,论文采用了级联的生成方式,先生成稠密的动作描述,建立输入到输出的逐像素映射关系,以允许更精准的动作控制;再在稠密动作描述的基础上生成完整图像,同时借助多源外貌一致性判别器,解耦不同人体部位的生成,实现各部位独立的外貌控制。大量的实验表明,该通用化方法具有良好的外貌可控性,其分阶段级联的生成方式也提升了生成视频的质量,性能优于此前领域内最先进的专用方法,在舞蹈视频数据集上将SSIM指标提高了 4.2%,PSNR指标提高了 2.08 dB。第二,针对现有方法生成的图像(尤其是衣服区域)缺乏空间和时间一致性的问题,论文提出了一种精细化流变形辅助的生成对抗网络,以流变形代替基于GAN的生成来提升空间一致性,并施加基于变形的时序约束来提升时间一致性。其中,空间一致性要求输出图像像素间的空间排列与输入外貌图像一致,从而保留输入目标外貌中的纹理和颜色细节,如衣服的花纹和图案等;时间一致性要求连续多帧图像中各像素随时间变化的位置变化要与实际的人体运动保持一致,从而达到视觉上连贯的视频效果。具体地,论文设计了一种精细化流变形网络来预测变形流,其通过对输入外貌中的衣服图像施加变形来获取新的图像,代替之前级联框架中基于GAN的衣服图像生成。通过精细化的变形,论文在不破坏输入外貌中原有像素间空间位置关系的前提下实现了衣服区域与目标动作的精确对齐,无损地保留了原有衣服的纹理和颜色细节,提升了图像的空间一致性。同时,论文还提出在连续帧的变形流之间施加帧间光流的约束,显式地保证所有像素的运动变化在时序上连贯,从本质上提升了生成视频的时间一致性。实验表明,基于精细化流变形生成衣服区域的方式显著提升了生成视频的时空一致性,其与GAN在非衣服区域生成方面的优势相结合,可以显著提高生成视频的质量,性能优于上一创新点中提出的方法,在舞蹈视频数据集上将SSIM指标提高了 1.4%,PSNR指标提高了 1.16 dB,尤其是与时间一致性紧密相关的TCM指标提高了 17.4%。第三,针对以上介绍的变形估计结合生成对抗网络的方法缺乏对输入外貌自遮挡情况的感知,容易导致生成的图像中包含不合理的图案和花纹等现象,论文提出了一种自遮挡感知变形融合的生成对抗网络。在上述精细化流变形网络的基础上,设计了自遮挡感知分支,除估计变形流外,还预测用于描述变形后图像自遮挡情况的掩膜。在生成过程中,具备自遮挡感知的生成对抗网络模型可以自适应地对被遮挡区域进行特征补全,并与变形后未遮挡的区域进行特征融合,相当于利用生成对抗网络的生成新内容的能力降低了方法对输入外貌完整性的依赖。此外,论文基于该方法,实现了统一框架下的多任务协同,使得一次性训练的模型可以同时支持多种人体视频生成任务。通过实验,论文验证了该方法在输入外貌存在自遮挡的情况下,可以明显提升生成质量,性能优于上一创新点中提出的方法,在时装图片数据集上将SSIM指标提高了 4.2%,PSNR指标提高了 1.65 dB。并且,论文在多个生成任务(包括:人体动作迁移、外貌编辑、视频修复)上验证了其多任务统一的能力,展现了良好的应用前景。