论文部分内容阅读
图像合成是计算机视觉、计算机图形学等领域的重要研究方向,具有着广泛的应用:由一段文字生成图像、图像在不同模态间的转换、图像的修复、编辑、去模糊、超分辨率等。尽管经过几十年的研究,在面对复杂的自然图像时,图像合成模型的表现依然不尽如人意。合成图像面临的主要挑战是真实性、多样性和与输入条件一致性。近些年生成对抗网络的出现提升了合成图像的真实性。但是由于生成对抗网络自身存在的训练不稳定、收敛状态无法判断、模式坍缩等问题,图像合成中的挑战依然存在。论文的核心贡献在于针对图像合成中的挑战和生成对抗网络的问题提出了一些解决方案。论文提出了特征匹配损失函数,以解决生成对抗网络中训练不稳定的问题。在训练中,对于判别网络,论文使用了和原始生成对抗网络中一样的二元交叉熵损失函数,使其保持判别能力。而对于生成网络,论文使用了特征匹配损失函数,该损失函数要求生成图像和真实图像在判别网络中的特征中心靠近,这样能够解决生成对抗网络原始损失函数中的梯度消失的问题,也就使得生成对抗网络的训练更加稳定。实验结果表明,该损失函数有效解决了生成对抗网络训练中的不稳定问题,并且提升了生成模型合成图片的质量。论文提出将编码网络加入生成对抗网络的框架,以解决生成对抗网络中的模式坍缩问题。编码网络将图片空间映射到隐空间,再使用生成网络将隐空间映射回图片空间,因为原图片空间的分布中的图片是多样的,所以生成网络生成的图片也是多样的。这样就解决了生成对抗网络中的模式坍缩问题。实验结果表明,加入了编码网络的生成对抗网络框架生成了更加富有多样性的图片,从而证明该框架有效解决了模式坍缩问题。同时该框架可以完成很多应用:细粒度图片合成、图片修复、图片渐变、图片属性检索、数据增强等。论文提出了身份保持的生成对抗网络框架,以实现指定身份和属性的人脸图片合成。该框架可以解耦人脸图片中的身份特征和属性特征(角度、表情、光照等),然后重组该身份特征和从另外一张人脸图片提取的属性特征得到一张新的人脸图片,该人脸图片满足给定的身份特征,同时也满足给定的属性特征。实验结果表明,该框架实现了开放集中的身份保持的人脸图片合成。同时该框架可以应用在很多任务中:侧脸图片转正脸图片、人脸识别中的对抗样本检测、人脸图片属性转换等。