论文部分内容阅读
图像描述是图像理解领域的热门话题,融合了人工智能两大研究领域,即机器视觉与自然语言处理。随着深度神经网络的发展和更好的标注数据集的出现,图像描述技术得到了迅速发展。基于卷积神经网络(Convolution Neural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)结合的端到端网络模型是目前使用最为广泛的图像标注方法,但存在描述内容不全面的弊端,如基于区域的稠密描述存在冗余且各描述独立无联系的缺点;使用单句的概括描述依然存在内容不全的问题等。因此,本文针对上述问题,研究了一个通过关注机制融合高层语义(通过稠密的局部区域描述获取)和图像特征的联合模型,以及合理融合局部文本建议框构建全局文本图的改进措施,实现了在准确地把握图像丰富内容的基础上,使用简练的一句或是多句话描述图像内容。首先本文从图像描述的研究背景及其在人工智能研究领域的理论与现实意义出发,介绍了该领域的国内外研究现状及现存问题。其次,针对图像描述内容不全面的问题,本文通过提取图像全局特征与局部区域的高层语义信息,并融合该语义信息指导图像描述的生成,使得模型既能把握全局图像信息生成整体描述,又能很好的注意到细节信息来丰富图像描述,使得图像描述更加全面,实现自上而下和自下而上模型的结合。同时模拟人类视觉注意力特点,引入关注机制,指导句子生成。关注机制根据前一时刻生成的词赋予高层语义不同的关注程度,以此将局部信息的高层语义更好地融入到文本生成的过程中去,使得生成的描述更全面、更准确。另外,在局部区域生成的稠密描述的基础上,提出局部区域文本框融合方法,通过构造全局文本场景图将各局部文本描述结合起来,然后根据区域框的交并比和包含等位置关系,将不同的描述对象进行整合,使得各个部分取得联系,在去除稠密描述冗余的同时整合多个局部描述生成一句或多句整体描述。最后,本文利用torch框架搭建了上述模型,使用VGG卷积神经网络作为编码器提取图像特征,LSTM(long-short-term-memory)循环神经网络作为译码器生成描述。在Visual Genome和Microsoft COCO联合数据集上完成了模型的训练,并在Microsoft COCO,Flickr30K数据集和随机下载的图片上使用多种评价指标进行测试,实验验证本文提出的改进方法能够生成更加全面的图像描述,同时语言表达具有逻辑性、清晰、不重复。