论文部分内容阅读
图像自动文本标注目标是为图像中存在的目标和场景生成对应的语句标注。传统的图像自动文本标注方法包括语义模板填充法、特征空间匹配法以及CNNRNN三种方法。利用这些方法生成的自动语句标注存在Exposure Bias问题,距离真实语境仍然有较大差距,相似图像生成的语句过于相似,缺乏独特性。因此,利用传统方法难以对图像进行有效地语句标注。为了克服传统图像自动文本标注问题中的Exposure Bias问题,本文引入了生成对抗网络,借助其独特的对抗机制自动为图像生成语句标注,该机制能够有效地使得生成数据拟合真实地数据分布。为了有效分析图像和生成语句之间的关系,本文同时引入注意力机制,将图像自动文本标注问题看作是一个基于注意力机制的序列生成问题。从多模态角度出发,探寻多模态(图像、文本)的注意力机制在图像自动文本标注任务上的应用。本文的主要研究工作如下:(1)提出了一种基于注意力机制的图像多标签分类方法。图像自动文本标注问题可以简化为图像多标签分类问题。首先将图像的多标签看作是一个序列,采用CNN提取图像特征,采用RNN对多标签进行预测;在每一步预测过程中,结合注意力估计的关注区域,预测该区域可能的标签。实验结果表明本文提出的基于注意力机制的图像多标签分类方法在多个衡量标准上能够比原本基于CNN和CNN-RNN的方法提高2%~3%的效果。(2)提出了一种针对多模态数据的注意力累积机制。本文研究的图像自动文本标注问题是多模态问题。在多模态数据中,每种模态的数据都存在关键信息,但是这种关键信息无法有效协同分析。本文将提出一种注意力累积机制方法并应用在视觉指称任务中,将该任务中各个模态数据的注意力进行有效结合,并互相强化。实验结果表明,所提方法能有效提高指称效果,准确度平均提升3%,可视化实验表明每种模态数据的关注信息都得到了强化。(3)提出了一种能够强化注意力的注意力反馈机制。传统基于注意力机制的运算过程是一个单向传播的操作,这类方法存在注意力分散和生成语句错乱的问题。本文在传统的注意力机制基础上,构建了反馈通道,有效保证了输入和输出注意力描述信息的匹配准确性,使得生成语句更加准确。实验表明,本文提出的注意力反馈机制在BLEU和METEOR两个衡量标准上相比原本基于注意力机制的方法提高了2%。(4)提出了一种基于生成对抗网络图像自动文本标注模型。本文在基于注意力机制的图像自动文本标注基础上,引入生成对抗网络思想,构建基于生成对抗网络的图像自动文本标注模型。模型的生成器采用多模态数据的注意力机制,同时将图像和文本的关注信息输入到判别器中判断真假,最终提升生成效果。本文采用Gumbel-Softmax分布柔化原本生成器中图像自动文本标注的离散输出,解决其直接输入到判别器中导致不可导问题。实验结果表明,本文提出的基于生成对抗网络的图像自动文本标注方法能够生成更加准确的语句标注,在BLEU和METEOR衡量标准上相比基于注意力反馈机制的方法提升了2~3%。