论文部分内容阅读
图像描述生成是一个融合了计算机视觉和自然语言处理的新兴交叉领域的研究课题,在图像检索、视觉障碍辅助、人机交互等领域中都具有极为广阔的应用前景。不同于图像分类、目标检测等独立标签式的粗粒度的图像理解任务,图像描述生成需要实现用通顺连贯的自然语言描述图像,这不仅需要模型识别出图像中的物体,还需要识别其他的视觉元素,如物体的动作和属性,理解物体之间的相互关系,并生成人类可读的、符合自然语言习惯的描述句子,因此具有很大的挑战性。传统的图像描述生成方法主要有基于模板的方法和基于检索的方法,但它们都过于依赖前期复杂的视觉处理过程,而对后端生成句子的语言模型优化不足,生成的描述语句质量不佳。近年来,基于深度神经网络的编码器-解码器模型在图像描述生成问题中取得了突破性的成果。本文针对基于深度学习的图像描述生成算法展开研究,主要工作在于:1.提出了一种基于自适应注意力机制的图像描述生成方法。虽然基于注意力机制的编码器-解码器模型已成为解决图像描述生成问题的主流,但它们的语言解码部分往往结构简单,基于单层LSTM的解码器表达能力有限,难以生成高质量的描述语句。针对这一问题,本文在现有的基于自适应注意力(Adaptive Attention)机制的图像描述生成算法的基础之上,提出了一种改进模型,我们的模型以ResNet-101网络作为图像编码器,以引入自适应注意力机制的双层LSTM作为句子解码器,并通过实验证明了我们的模型在MSCOCO图像描述数据集上的性能超过作为基准的Adaptive Attention模型,且优于现有的大多数主流的图像描述生成方法。2.引入了强化学习方法进一步优化模型。当前大多数图像描述生成算法都使用最大似然对语言进行建模,这存在两个明显的问题:一是模型在训练和测试过程中的语言解码方式不同带来的曝光偏差问题,训练时解码器的每个时刻输入的是真实词,而在测试时解码器每个时刻的输入为前一时刻模型利用贪婪搜索或束搜索方式预测出来的单词,如果某一个单词预测得不够准确,之后所有单词的预测都会受到影响,生成的句子会随着错误的传递和累积而变得越来越糟糕;二是模型的训练目标和评价准则不匹配的问题,训练时模型最小化交叉熵损失函数,然而在评价模型生成的句子的质量时往往使用的是BLEU、METEOR、ROUGE-L、CIDEr等客观评价准则,在传统的反向传播中,这些客观评价准则作为目标函数时往往是不可微的。本文引入强化学习方法来解决这两个问题,直接优化CIDEr评价准则对模型进行进一步训练,在MSCOCO数据集上的实验结果证明这种方法可以进一步提升模型的性能。