论文部分内容阅读
图像生成技术作为计算机视觉领域难度最高、最具有挑战性的研究课题之一,需要计算机对图像语义信息有较强的理解能力。而传统的生成式模型受制于模型复杂度制约,无法利用较高层的语义信息。近年来基于深度神经网络(Deep Neural Nwtworks,DNN)的方法在图像生成领域发展迅速,目前典型的算法有深度信念网络(Deep Belief Nwtworks,DBN)、变分自编码模型(Variational Auto-Encoder,VAE)和生成式对抗网络(Generative Adversarial Nets,GAN)。这些方法展现了深度模型强大的特征学习和表达能力。然而尽管这类方法在图像生成领域取得较大进展,目前其生成的图片仍然分辨率较低,且生成图片质量距离真实图片仍有较大差距。这说明图像生成技术仍然面临很大挑战。图像修复技术的目的是自动对图像缺损区域进行填充,使得整张图片看起来较为完整。图像修复技术可被应用于修复损坏图片或者去除目标物体。早期的相关工作没有利用高层语义信息,因此效果也受到限制。为了对待修复图片的高层语义信息有更深刻的理解,基于深度学习的方法开始被应用到图像修复中。本文首先介绍了图像生成和修复领域内的常用算法,着重说明了GAN对于图像生成和修复领域的性能改进。GAN自2014年提出后在图像生成和无监督学习领域展现出巨大的潜力,近几年在理论和模型结构上发展迅速。然而GAN虽然性能优良,却仍然面临着一些挑战,包括生成器和判别器的训练不平衡问题,以及训练过程中的梯度消失和模式崩塌问题等,这些都让GAN的训练很不稳定,极大地制约了GAN的性能。这些训练问题很大一部分归因于传统GAN模型中判别器所使用的sigmoid交叉熵损失函数,本文分析了sigmoid交叉熵损失函数造成梯度消失的原因。为了提高GAN的训练稳定性以生成评价更好的图片,本文提出了最大间隔生成式对抗网络模型(Max-Margin Generative Adversarial Networks,MMGAN),该模型将支持向量机中最大间隔的思想引入到GAN中。本文说明了MMGAN对原有GAN模型的改进,并在四个较为流行的数据集上进行了MMGAN和其他四种GAN模型的对比实验。实验结果表明,MMGAN可以有效解决困扰传统GAN训练的梯度消失和模式崩塌问题,并且可以自动调节生成器和判别器的训练步伐,具有很强的训练稳定性。随后,本文将MMGAN拓展到多分类任务上,提出了MMGAN-R模型。我们在两个流行数据集上进行了MMGAN-R和InfoGAN的对比实验,实验结果表明,MMGAN-R对于图片特征具有较强的无监督学习能力。本文以MMGAN作为辅助目标函数提出了一个新的图像修复模型,该模型包含两个优化项(内容损失函数和结构损失函数)与三支优化网络(生成器、判别器和特征匹配去噪器)。本文利用均方差构造内容损失函数,来保证修复图片和原图在低层信息和像素值上的相似性;结构损失函数则使用MMGAN和特征匹配去噪器来约束,以保证修复图片和原图在结构和高层语义信息上的一致性。本文在两个数据集上以常用的图像修复算法作为对比进行了大量实验。实验结果表明,本文提出的模型具有较强的图片修复能力和泛化性。