论文部分内容阅读
图像描述是一门基于图像识别研究的交叉学科,其主要目标是对给定的图像进行有意义的文字描述。目前,图像描述是计算机视觉领域很重要的一个研究方向,在图像检索、标注、解析方面都有很好的应用前景。虽然相关研究已经取得了很大的进展,但是目前针对图像文本描述提出的相关模型,其语义信息完整度仍不够高,且语言逻辑不够通顺,并存在一定的图像信息损失。针对这些尚未解决的问题,本文主要进行了以下研究:首先,在图像的特征提取方面,本文采用了目前较为流行的深度学习方法进行特征表达。文中针对现有的几种卷积神经网络(Convolutional Neural Network,CNN)模型进行了对比分析,InceptionV3结构增加了网络宽度,在提高特征表达能力的同时降低了计算压力。而ResNet结构中的残差理念则避免了冗余层造成的梯度消失。本文在保证模型效果的前提下提出了改进的残差-InceptionV3模型,对原有的Inception层进行结构简化,并将残差理念融入Inception层中,在降低网络计算复杂度的同时,更快的完成图像的特征提取任务。其次,将图像特征向量输入进神经网络模型中进行语言描述文本的生成。此处所用的人工神经网络为循环神经网络(Recurrent Neural Network,RNN)的变体结构——门控循环单元。本文提出将双层异向的门控循环单元结构作为文本生成模型的主体结构,旨在最大程度的模拟真实的语境分析,在文本分析过程中兼顾前后语境中的语义信息,大大提高了生成语句的准确性和丰富度。此外,引入了复杂注意力机制的概念,提出了“筛选门”结构,将部分生成概率较大的图像特征向量信息直接与双层循环神经网络计算的概率结果进行整合,不仅在很大程度上压缩了模型的预测空间,同时也降低了文本解码模型中信息丢失的概率,使概率较大的图像特征受到更多的关注。最后,本文提出基于残差-InceptionV3网络和双层异向GRU网络结构的图像描述模型Data-to-GRU Image Caption(DGIC)。针对图像与文本的跨模态交互,文中使用基于深度学习的哈希层进行图像特征向量在输入语言生成模型前的预处理,哈希算法的单向搜索性和唯一对应性提高了跨模态映射的精确性。另外,选择Word2Vec中的skip-grams模型将语言文本库中的文本信息转换为词嵌入向量输入进语言模型中,与图像特征向量在循环神经网络模型中进行跨模态交互,生成最后的文本描述。本文使用基础数据集作为训练数据集,通过自适应矩估计梯度下降算法对模型进行训练,使用集束搜索算法完成模型的测试。结果显示,本文提出的DGIC模型在模型收敛后其损失函数值比NIC模型大,但是其模型收敛速率相较于NIC基线模型有较大提升。而且,随着训练轮次加深,DGIC模型生成的描述文本结果有较高的准确率,而NIC模型则大幅下降,说明本文提出的DGIC模型成功避免了模型过拟合问题。根据人工抽样检查模型生成的文本描述结果可知,其描述语句具有很好的逻辑性,更加真实且信息全面。