论文部分内容阅读
图像生成一直是人工智能学科的重点研究领域之一。从2014年开始,由于生成对抗网络的出现,该领域进入了一个全新的发展阶段。图像生成应用十分广泛,既可用于生成逼真数据、填补缺失数据,也可以用于强化学习、解决多模输出问题等。传统的单模态图像生成模型的输入一般是原始图像或者随机噪声,该类模型一般只能在两个域或多个域之间进行图像转换,模型生成能力受到很大的制约,灵活性不足。相比之下,基于文本描述的跨模态图像生成模型由于文本信息的引入而具有了很大的灵活性。本文主要致力于跨模态图像修改模型的相关研究,它是跨模态图像生成研究领域的子领域。该类模型目前存在以下三点问题,首先,现有的跨模态图像修改模型主要在花鸟数据集上进行研究,实际应用价值不高;其次,由于文本和图像是不同模态的数据,因此需要考虑如何精确地将这二者进行互相映射;最后,图像生成质量低、细节模糊等问题普遍存在于该类模型中。针对上述问题本文提出了新的解决方案。本文的主要工作和贡献如下:首先,为VeRi776交通数据集手工标注文本描述。当前可用于跨模态图像修改工作的数据集十分稀少,相关工作大都在CUB-200-2011 Birds和Oxford 102 flowers数据集上进行,趣味性有余,但实际应用价值并不高。鉴于上述原因,本文在开展工作时,首先选择手工标注VeRi776交通数据集,该数据集被广泛应用于智能交通领域的研究中。本文在该数据集上进行跨模态图像修改工作的成果可直接应用于智能交通领域的各种下游任务如车型识别、车辆分类、车辆跟踪和车辆再识别等。第二,提出了一种基于生成对抗网络的跨模态图像修改模型。针对我们所标注的跨模态交通数据集图像对应文本描述少、图像质量不高等问题,本文设计了跨模态图像修改模型。在图像修改模型的生成器中,本文采用两阶段式生成模型,以期更好地捕捉原始图像细节信息。与此同时,鉴于文本描述过少的问题,本文采用了文本自适应判别器,使得模型可以高效地获得细粒度的文本与图像之间的对应关系。我们在自行标注的跨模态交通图像数据集上进行了充分的实验,从主观视觉评价和客观量化两个角度验证了本文模型的有效性。第三,提出了融合注意力机制的跨模态图像修改模型。我们在跨模态图像修改模型的图像特征提取模块中加入通道-空间注意力网络和自注意力层,增强了细粒度的图像特征与文本特征的映射关系,使得模型对图像的全局特征以及局部特征的提取效果更为理想。我们对加入注意力机制前后的模型生成的图像进行了主观评价和客观量化,充分地验证了融合注意力机制的方法的有效性。