论文部分内容阅读
图像描述旨在为给定的图像生成自然语言描述,其联结着视觉与语言两个模态,涉及计算机视觉与自然语言处理等多方面的技术。现有图像描述模型大多只能生成单个句子的描述,但是,“一图值千字”,单个句子难以描述丰富的图像内容,本文提出基于主题的图像描述生成技术,通过主题监督生成多个描述句,具体工作内容如下。提出了一个基于主题的多句子图像描述生成模型。模型包括主题抽取与表示模块、基于图像的主题预测模块以及融入主题监督的自然语言生成模块三个部分。为了挖掘描述蕴含的主题信息,并将主题编码为向量,以便融入网络监督生成过程,本研究设计了主题抽取与表示模块。该模块基于潜在狄利克雷分布(LDA:Latent DirichletAllocation)主题模型进行主题挖掘。本文分别利用文本数据和图像-文本多模态数据进行了主题抽取,并基于词向量建立主题的向量表示。为避免描述的盲目生成,需要预先推断主题,本研究设计了基于图像的主题预测模块。以图像表示作为分类器的输入,以最小化预测分布与真实分布间的KL散度为目标,训练预测模块。实验表明,主题数为20时,分类器以95%的概率,至少准确预测一个主题。为了将主题的监督融入生成过程,设计了融入主题监督的自然语言生成模块。使用长短期记忆(LSTM:Long Short-Term Memory)神经网络作为解码器,解码器基于图像信息,通过融合不同的主题监督信息达到生成不同描述句子的能力。在flickr8k、flickr30k和COCO三个公开数据集上的实验结果表明,在按主题的分组评估中,该模型在BLEU、CIDEr等指标中均超过对比模型,同时该模型具有生成多个描述句子的能力,生成的多个描述句子具有与主题相关的多样性。本文基于所提出的多句子图像描述生成模型,设计并实现了一个图像描述自动生成演示系统。