论文部分内容阅读
目前,人工智能领域的发展备受人们的关注,这都归功于深度学习技术在近几年来取得的突破性进展,特别是与神经网络技术相关的研究取得的重大突破。在计算机视觉领域,深度学习技术已经在图像识别、图像分类、图像分割以及图像的语义描述等方向大放异彩,并展现出高于机器学习技术数倍的性能。然而,计算机视觉中的图像生成问题时至今日仍是一项艰巨的挑战,这是由于早期生成式模型的研究一直鲜有突破,利用图像类别甚至是文本描述作为条件来控制神经网络模型进行图像的生成则更是难上加难。令人振奋的是,生成对抗网络技术的提出为利用文本生成图像这一问题提供了很好的解决方案,并且生成对抗网络技术本身在近几年之间也不断被改进与优化,性能得到了大幅度的提升。众所周知,生成对抗网络在图像生成领域有着极佳的表现,模型本身具有易理解、易实现的架构优势,并且还能够生成原有方案无可比拟的真实性的图像。然而,生成对抗网络得益于其独特的训练方式的同时,也被其训练方式所约束,许多研究学者在实验中均发现原始生成对抗网络存在训练不稳定以及模式坍塌等问题。即便是最新的基于生成对抗网络的文本生成图像的工作当中,其模型仍存在这一问题,从而导致模型生成图像的能力欠佳。本论文对基于生成对抗网络的文本到图像生成方案进行扩展。本论文的主要工作如下:第一,对原有文本到图像生成方案GAN-CLS算法进行损失函数上的改进。原有的方案中使用了JS散度,该距离测度在生成对抗网络训练初期,模型数据分布与真实数据分布重叠部分较少时容易导致梯度消失现象的产生,从而模型训练困难。而近似的EM距离能够根源上解决该问题,因此本文通过理论论证与实验的方式证实了近似EM距离的引入能够提高原有GAN-CLS方案训练稳定性并避免模式坍塌问题。第二,在文本到图像生成方案中引入自注意力机制,提出了GAN-SelfAtt模型框架。同时,本论文使用WGAN、WGAN-GP两种损失函数定义方案对基于自注意力的GAN-SelfAtt框架进行实现。实验结果表明,自注意力机制的引入能够提高生成图像的清晰度,这归功于自注意力机制弥补了卷积运算中只能计算局部像素区域内的相关性的缺陷。