论文部分内容阅读
图像描述的研究涉及计算机视觉、自然语言处理等多个领域的新技术和理论。计算机自动对图像内容进行自然语言描述,得到图像的语义信息,可用于基于图像理解的海量图像存储、检索任务中。近年来,该领域受到研究者们的广泛关注,并取得了巨大的研究进展,但由于图像内容复杂、文本表述多样化等原因,图像描述仍面临诸多挑战,如何合理、准确、全面的表示图像内容,并将图像特征准确的转换为文本表达都是待解决的问题。本文针对上述问题进行了较为深入的研究,主要研究成果如下:(1)提出一种基于多深度视觉特征表示的图像描述方法。传统的基于深度学习特征表示的图像描述方法,通常采用在ImageNet数据集上预训练以目标分类为任务的卷积神经网络来提取图像特征,此方法提取的特征主要为图像中的目标特征,不能包含图像中的全部信息,如场景及上下文等信息。因此,对于输入图像,本文首先采用不同的卷积神经网络模型分别提取图像的目标特征与场景特征,并将两者结合以充分的表示图像内容。然后,训练一个映射矩阵将图像的多深度视觉特征与文本特征映射到同一嵌入空间,使图像与文本两种不同模态的特征在维度及语义上进行对齐。最后,训练一个长短时记忆网络将嵌入空间中的图像特征逐个单词的转换为描述文本。在MSCOCO数据集上的实验结果表明,本文方法较传统的基于深度学习特征表示的图像描述方法在各评测标准上均有提升。(2)提出一种结合目标显著性的图像描述方法。图像显著性区域通常是人们感兴趣的区域,也是图像自然语言描述中的目标所在区域,目标显著性加权有助于提高目标特征在转换为文本时的响应。因此,对于输入图像,本文首先提取其显著图,根据显著性,对原图进行加权以突出图像中的目标区域。然后,本文以显著性加权图像为输入提取图像的目标特征,并以原图像为输入提取场景特征,将两个特征结合得到目标显著性加权的多特征表示。本文在MSCOCO数据集上对所提出的图像描述模型进行评估,实验结果表明基于目标显著性加权的多特征表示的图像描述方法对目标的描述更准确,且描述的图像内容更丰富。与同类方法相比,本文的方法在BLEU,METEOR等指标上均取得了较好的结果。