论文部分内容阅读
自2014年被提出以来,GAN在图像生成、图像风格转换、图像缺失补全等计算机视觉相关领域,以及语音合成、自然语言处理等领域都取得了很好的结果。但是,GAN的训练存在诸多困难,如梯度消失,模式崩溃,判别器遗忘分类边界等。目前主要是通过CGAN生成自然图像,通过加入约束条件控制GAN的生成,这种模型的主要不足是需要标记数据,然而对数据进行标注需要耗费大量的人力和物力,这是十分困难的,甚至有时是不可行的。针对这个问题,本文引入自监督GAN的思想,它结合了两种流行的无监督学习技术,即对抗训练和自监督学习,拉近了无监督学习和监督学习之间的差距。但在自监督GAN中对于生成图像的旋转,对抗损失和旋转损失是对抗的,这样会导致生成器的质量对判别器影响略大,因此,本文对自监督GAN的生成器损失函数进行了优化,进一步加强了GAN训练的稳定性。又由于自监督GAN训练初期生成图像的质量较差,此时对图像进行旋转,提取特征进行检测,得到的结果差强人意。因此,本文提出对自监督GAN进行预处理,通过实验证明了本文提出的模型生成的图像更加逼真。通过对自监督GAN进行优化,在一定程度上缓解了判别器遗忘分类边界的问题,降低了判别器的表现形式对生成器输出质量的依赖性,从而保证模型能得到更稳定的训练。但对于原始GAN出现的梯度消失和模式崩溃的问题还没有解决,在实验中也可以看出图像的多样性得不到很好地保证。而原始GAN出现这两个问题的主要原因是使用JS散度度量真实分布和生成分布之间的距离。而JS散度在这两个分布不存在交集的情况下却是一个常数,这样会造成梯度消失。因此本文使用Wasserstein距离替换JS散度,即使两个分布在没有交集的情况下,它仍然可以很好地度量它们之间的距离,并且Wasserstein距离是平滑的,可以在训练中提供有意义的梯度。本文在自监督GAN的基础上引入Wasserstein距离,使生成图像的多样性得到了保证。