论文部分内容阅读
自2012年以来,深度学习技术在计算机视觉、自然语言处理和语音识别等领域被深入探索并取得了突出的效果,表现出了优异的表示学习能力。图像描述任务(Image Caption)作为一个跨学科、跨模态的交叉研究问题,是对深度神经网络的学习能力向多个数据域拓展的一步重要探索。图像描述任务的目标是使计算机能够自动的对图片生成一段描述性文字,但这种简单的描述更倾向于捕捉全局图像的要点信息,而不是细粒度的实体,特别是当图像中包含较多物体时,用一句话描述已经很难完整的传达图像中的细节信息。对于图像描述任务不能覆盖丰富的底层语义问题,2016年又出现图像密集描述任务(Dense Caption),该任务不仅需要对图像中有意义区域进行定位,同时还要对检测出的区域进行语言描述。本文针对图像描述任务和密集描述任务中所存在的问题分别做了如下的研究工作:对于图像描述任务,基于深度神经网络的方法普遍存在两个问题。首先,经过卷积神经网络(CNN)提取的图像特征向量只能保留原始图像的显著特征,这个过程会损失很多有用的图像信息,造成的结果就是生成的语句常常伴随着对视觉属性的错误预测。此外,循环神经网络(RNN)存在梯度消失问题,随着循环神经网络时间片的增长,梯度误差在反向传播过程中会逐渐消失,从而导致后续时间片生成的单词缺乏先前信息指导。针对这两个问题,本文提出了一种基于多模态融合的图像描述方法。模型使用目标检测方法来生成图像的属性信息,在每一步单词生成时额外利用图像高层语义信息和句子特征来指导单词生成。同时采用一种时序卷积结构提取语句特征,将句子特征融合进每个RNN时间片从而增强RNN对历史单词的长距离相关性建模。为了更好的展示两种多模态信息对结果的影响,实验中设计了很多不同结构,并且在Flickr8k、Flickr30k和MSCOCO数据集上进行了验证。实验结果显示,通过在基准模型(GRU、LSTM、Peephole LSTM)上增加两种多模态信息可以显著提高模型性能。特别是在MSCOCO数据集上,BLEU@4和CIDEr指标上分别提高了4.1%和10.4%。对于密集描述任务,现有模型的主干结构通常是对区域图像特征提取与区域目标检测两大模块共享的,但在实践过程中发现,这种共享的主干结构会导致模型训练效率低下,原因是主干结构内部的参数很难同时适应两个训练目标。针对这个问题,本文提出了一种分叉卷积结构(Bifurcate Inception)。结构将区域图像特征提取与区域目标检测两大模块分开,同时配合一种交替固定训练方式,使模型的两部分模块不会相互干扰可以正常的端到端训练。模型在使用Bifurcate Inception结构基础上还有另外两点改进:第一,为进一步增强模型的区域目标检测能力,本文重新设计了一个One-Stage目标检测器以替代能力较弱的RPN(Region Proposal Network)网络。第二,在进行图像区域描述训练时,模型除了提取区域卷积特征,还将额外提取图像全局属性信息,使LSTM在训练时能够利用两种视觉信息以提高模型区域描述的准确度。根据以上改进思路,本文在Visual Genome公开数据集上的进行了充分的实验,模型在Visual Genome v1.0数据集上达到了mAP 8.21,在Visual Genome v1.2数据集上达到mAP 8.39,比先前主流密集描述模型FCLN(Fully Convolutional Localization Networks)mAP 5.39提高了近53%。