论文部分内容阅读
深度学习理论的提出和发展极大地推动了对图像生成的研究。在基于深度学习的传统图像生成任务中,由于卷积神经网络内部存在局部连接,通过学习局部特征,模型能够较好地生成图像中浅层神经网络提取的纹理风格信息,但是对深层神经网络提取的高级语义特征的学习能力较差,导致生成图像中语义目标出现模糊失真的现象。为提高神经网络的全局特征处理能力,使生成图像中的语义目标更清晰、真实,本文在级联细化网络图像生成模型中引入注意力机制,加强网络内部多维特征之间的全局一致性,提高了由语义标签和复杂文本描述生成真实感图像的质量。本文的主要研究内容及成果如下:(1)通过在级联细化网络内部引入自注意力机制,对第一级精细化模块输出的多维特征图做特征融合,输出带有全局信息的自注意力特征,克服了卷积神经网络局部连接带来的局部性特征缺陷,得到自注意力级联细化网络,提升了由语义标签生成真实感图像中语义目标的清晰度和真实性。通过对Cityscapes验证集语义标签生成图像的语义分割,自注意力模型生成图像的平均像素精度相比原始模型提升了6.2%,mIoU精度提升了22.3%。(2)在自注意力机制的基础上,结合级联细化网络自身输入特性,对第一级精细化模块输出多维特征图和语义标签内多维语义特征做特征融合,提出监督注意力机制,得到监督注意力级联细化网络,由语义布局和语义结构指导浅层网络输出特征完成图像生成,进一步提升了由语义标签生成图像的质量。将Cityscapes验证集语义标签生成图像的语义分割平均像素精度在自注意力模型的基础上又提升了2.4%,mIoU精度提升了4.4%。(3)结合多特征鲁棒性良好的自适配归一化改进了实例分割模型Mask Scoring R-CNN,提升了模型的实例分割精度,通过对生成图像的实例分割克服语义分割对模糊语义群体目标的误判,定量证实了两种注意力模型对生成图像质量的提升。(4)通过将监督注意力级联细化网络作为生成器引入Sg2im模型,提高了模型从场景图表示的复杂文本描述中生成图像的质量。将COCO数据集上生成图像的Inception score提高了19.4%,Visual Genome数据集上生成图像的Inception score提高了19.7%。综上,本文将自注意力和监督注意力机制引入到级联细化网络图像生成模型,通过注意力机制加强了网络输出多维特征的全局一致性,克服了卷积网络局部连接导致的生成图像中语义目标模糊失真的现象。通过从语义标签和复杂文本描述中生成真实感图像的实验,定性和定量证实了注意力机制对图像生成质量的提升。