论文部分内容阅读
图像描述生成是一项结合了计算机视觉和自然语言处理的任务,对于给定图像,要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图像辅助理解、图文互搜等领域具有较强的实用价值。近年来,针对如何高效利用图像卷积特征以生成更好的描述语句成为图像描述生成任务的重要研究方向。本文在当前图像描述生成方法的基础上,从特征组合以及高级语义信息的利用上进行了相关研究:1)基于类激活映射机制的图像描述生成方法。本文在现有图像描述生成框架中引入类激活映射机制,提出了基于类激活映射注意力机制的图像描述生成框架(Class Activation Mapping-Attention,CAMA),在生成单词与卷积特征之间建立联系,以实现卷积特征能够与生成单词更好的语义对齐。与其他使用基于空间的特征表达不同,在注意力机制计算之前,就对卷积特征进行组合以得到更合适准确的特征表达,在当前软注意力框架基础上引入类激活映射机制,利用类激活映射机制重新组合由卷积神经网络得到的图像卷积特征。而在图像描述生成部分,为了使解码模块适应类激活映射机制算法,采用双层长短时记忆网络,充分利用图像的全局特征和局部特征,有效提高模型的表达能力。通过MSCOCO、Flickr8k、Flickr30k数据集实验结果对比,对照当前主流模型有较为明显提升,其中MSCOCO上训练的基于ResNet-50的模型在Bleu-2指标上相对于Soft-attend模型提升了7.3%,在Bleu-3指标上相对m-RNN模型提升了10.8%,在Bleu-4指标上相对NIC模型提升了2.5%。2)面向实体特征图像描述生成方法。在基于类激活映射注意力机制的图像描述生成框架的基础上提出面向实体特征描述的图像描述生成方法,从给定图像描述语句中挖掘其中的实体属性标注,并将实体特征引入到当前的编码器解码器框架中来,相较于直接使用词向量聚类的方法,实体特征标注具有更明确的语义信息,也具有更好的表现效果。公开数据集实验上的结果表明,具有明确语义关系的标注得到的图像卷积特征具有更好的效果,明确语义语义信息的图像卷积特征对于图像描述生成任务具有明显帮助,能够从整体上得到图像中物体之间相互关系的语义信息,同时能够从细节得到图像中物体相关的信息。其中在MSCOCO数据集上训练的面向实体特征描述的模型在Bleu-1指标上相对于Soft-attend模型提升了2.9%,在Bleu-3指标上相对于CAMA模型提升了10.5%,在Bleu-4指标上相对于CAMA模型提升了10.7%,在ROUGE_L指标上相对于CAMA模型提升了3.9%,在CIDEr指标上相对于CAMA模型提升了9.4%。