论文部分内容阅读
图像描述是人工智能领域一个重要的问题,在无人驾驶、虚拟现实、机器视觉等方面具有广泛的应用。通过图像描述,我们期望机器视觉中对图像的处理都可以转化为对文本语言的处理,以利于更好的理解视觉场景。如何对给定图像的内容进行准确、全面的描述,并且符合人眼视觉观察的内容,是图像描述研究中的一个关键问题,具有重要的理论意义和应用价值。然而,由于图像描述不仅需要计算机视觉、图像处理方面的知识,同时还需要自然语言处理的相关知识,这种复杂的知识背景要求使得图像描述成为一个非常困难且具有挑战性的研究问题,让很多研究者望而却步,但是其广泛的应用前景也吸引了很多的学者。本文针对图像描述相关问题开展研究,主要研究内容包括:1)针对自动生成图像文本描述问题,本文首先研究了基于卷积循环混合模型的图像描述方法整体模型结构。在图像描述过程中,首先在高维空间中对图像和文本进行表示,然后在高维空间中建立图像和文本的匹配关系。整个模型由三个模块组成:第一个模块是图像编码,用卷积神经网络的图像特征提取及编码;第二个模块是句子编码,将词语映射到高维向量空间;第三个模块是句子生成,用长短时记忆网络模型对高维空间中的图像和文本建立匹配关系,生成句子描述。2)针对基于卷积循环混合模型的图像描述中词向量初始化问题,研究了句子编码过程,提出了在句子编码阶段用word2vec训练句子词向量的新方法。Word2vec是一个神经网络模型,相比较随机生成词向量方法,word2vec训练的词向量可以使得词语之间的关系在词向量中也能体现出来,相近语义的词语所对应的词向量之间的距离也更近,有利于提高句子生成质量。3)针对基于卷积循环混合模型的图像描述句子生成阶段输入向量预处理问题,研究了句子生成模型,提出了用带普通隐含层的长短时记忆网络模型的新方法。由于输入向量是未知参数需要学习,新方法中新增加的隐含层可以对输入向量进行预处理。在该模型中,词向量先经过一个普通的隐含层,然后再进入长短时记忆网络的细胞单元进行循环运算,这种改变可以对训练数据进行很好的预处理。该模型所用到的学习算法和长短时记忆网络类似,该模型新加的普通隐含层相当于之前网络的输入,该部分可以用BPTT算法,从新加隐含层到输入层可以用普通反向传播算法进行参数学习。通过在Flickr8K数据集上进行测试,实验结果表明,在原始的长短时记忆网络中引入一层新的普通隐含层或者采用word2vec编码,都可以有效提高图像描述文本的准确性,取得更好的图像文本描述效果。