论文部分内容阅读
在早期的文本生成图像的研究中,可变分自动编码器VAE是最常用的方法,它可以通过编码文本然后解码来生成相应的图像。但是由于可变分自动编码器VAE模型本身存在局限,导致生成图像质量一般。当前文本生成图像主要使用生成对抗网络GAN的方法,生成对抗网络GAN恰好能解决图像生成质量不好的问题,为了解决VAE模型的局限,生成器训练生成图像的数据分布来欺骗鉴别器,同时对鉴别器进行优化以区分真实的样本和由生成器产生的错误样本。目前为止,大多数文本生成图像的论文都仅针对生成单个物体的图像,对于单物体的生成效果有较大的进步。但是对于在一幅图像中生成多个物体的图像研究较少,虽然使用场景图能够解决在一个图像中生成多个物体的问题,但网络并没有很好的处理图像中物体的细节。并且在模型的训练过程中,图像生成的稳定性不够,造成图像质量有所下降。为了解决图像中物体缺乏细节的效果,本文提出在掩码回归网络中增加自注意力机制的方法对物体细节进行填充。由于大多数文本生成图像的模型都采用的是卷积GAN,卷积GAN中的卷积操作会受到局部感受域的影响,如果一个物体在图像中所占用区域过大,卷积核则无法提取该物体所占用的整个区域,导致提取的区域之间没有太大的联系,影响物体整体的生成效果。通过引入自注意力机制将特征图中独立的区域联系起来,可以有效解决由局部感受域引起图像中物体细节不够的问题。同时为了解决场景图生成图像过程中不稳定的效果,本文在级联细化网络中采用渐进式增长的方式。场景图生成图像如果要提高图像的分辨率,可以通过增加隐藏层的方式来实现,但是这将导致生成器一次需要学习太多参数,优化算法没有办法协调多个层以捕捉这些存在依赖性的参数值。本文通过在训练期间不断地向生成器和鉴别器添加隐藏层的方式,使模型先生成图像的轮廓信息,再将注意力转向图像中细节的填充,这样不仅能够稳定模型的训练并且能够加快网络训练的速度。本文共使用两个数据集来验证我们的结果,分别是Visual Genome数据集和COCO Stuff数据集。VG数据集提供手工注释的场景图,而COCO数据集需要从图像中物体之间的位置关系构建合成场景图。为了验证提出模型的有效型,本文使用了评估生成图像质量好坏的Inception score评价标准,同时为了验证场景图和生成图像两者是否相符采用了人为的评判标准,从两个角度证明本课题提出的方法能够生成质量更好的图像。