论文部分内容阅读
图像描述任务结合计算机视觉和自然语言处理技术,将输入的图像转换为描述图像内容的文本,实现视觉到语言的模态转换。在图像检索、人机交互、儿童教育等领域有广阔的应用前景。图像描述的生成依赖对图像内容的深入理解,因此模型不仅需要识别出图像中的对象,还需要识别出背景、动作、属性及对象间的语义关系等图像信息。传统的图像描述基于模板或检索生成,高度依赖模板或现有的文本描述,因此生成的句子描述单一化且相似度很高。随着深度神经网络的发展,基于深度学习的Encoder-Decoder框架在图像描述任务中取得了较大成果。但是现有方法还存在错误率高、质量不佳等问题。据此,本文针对基于深度学习的图像描述展开研究,主要工作如下:(1)提出基于注意力机制和双向长短期记忆网络(Bi-LSTM)的图像描述生成方法。针对现有图像描述方法存在的LSTM解码端在生成当前时刻单词时仅参考前面的信息,难以生成准确图像描述的问题,给出一种改进模型。改进模型的图像描述方法使用VGGNet19对图像进行特征提取,在每个时刻应用注意力机制计算每个图像区域的权重,并进行加权求和得到图像上下文向量,将图像上下文向量作为双向长短期记忆网络解码器的输入,解码时充分利用上下文信息生成对图像更为准确的句子描述。相对于基准模型,所提图像描述生成方法在MSCOCO数据集上的BLEU-1,BLEU-2,BLEU-3,BLEU-4和METEOR评分分别提高了3.11%,6.09%,6.98%,7.41%和7.53%,表明使用双向长短期记忆网络进行解码能够进一步提升模型的性能。(2)提出基于图像特征和文本特征的图像描述生成方法。针对长短期记忆网络计算当前时刻输出词的概率时依赖前面生成的单词信息,如果某一时刻的预测词不准确,会导致最终输出的整个句子偏离图像真实内容的问题,给出一种改进模型。改进模型的图像描述方法使用TF-IDF和Word2Vec将图像人工标注的句子转为文本特征向量,并通过VGGNet19提取图像特征向量。同时应用注意力机制分别计算图像上下文向量和文本上下文向量,作为两类输入信息共同提供给长短期记忆网络。在预测输出的单词时,综合图像信息和文本信息,有效减少错误单词的输出,生成准确率更高、更加贴近图像表述内容的句子。相对于基准模型,所提图像描述生成方法在MSCOCO数据集上的BLEU-1,BLEU-2,BLEU-3,BLEU-4和METEOR评分分别提高了4.10%,5.49%,8.14%,9.47%和6.28%,表明引入文本特征可有效提升模型性能。