论文部分内容阅读
随着时代的发展,信息的载体越来越呈现多模态化的趋势,多模态表示学习也逐渐成为研究学者们关注的焦点。在计算机视觉领域,视觉识别系统在图像分类上的错误率已经低于人类的平均水平;而在自然语言处理领域,机器翻译的水平也足够人类的日常使用。但在图像描述等需要综合利用图像和文本的领域,计算机的水平还不尽如人意。因此,如何有效结合计算机视觉与自然语言处理的优势,有效利用图像和文本之间的互补性,已成为了近些年学者们新的研究热点。视觉语义嵌入便是研究如何利用图像和文本间的互补性,剔除两者之间的冗余性,从而得到更好的图像表示和文本表示的方法。如今,随着深度学习的崛起,计算机视觉和自然语言处理领域也双双迈入了深度学习阶段。在计算机视觉领域,卷积神经网络已经成为图像相关问题的首选处理模型;而在自然语言处理领域,循环神经网络和词嵌入模型的发展也使得文本分类和机器翻译等应用越来越接近人类的水平。本文研究的主体是如何有效利用深度学习和词嵌入模型来改进视觉语义嵌入模型,获得更优的图像表示和文本表示,以及两者内部真实的语义结构表示,从而提高图像描述等图像与文本交叉领域的学习水平。在本文中,我们分别发挥卷积神经网络、循环神经网络和词嵌入模型等的各自优势,对视觉语义嵌入模型进行研究。总体而言,本文的贡献主要包括以下两个方面:1)我们提出了一种基于词嵌入平均的视觉语义嵌入学习框架,通过框架内卷积神经网络和词嵌入平均的共同学习,它能够将图像的表示空间和文本的表示空间统一到共同的嵌入空间中。在图像方面,我们先使用卷积神经网络提取图像的特征;在文本方面,我们先分别用词嵌入模型得到每个单词的向量化表示,然后取其平均作为文本的特征;最后通过结合了困难负样本挖掘的三元排序损失函数来减小图像特征和文本特征间的误差。通过应用迁移学习做图像相似度检测方面的应用,实验证明了我们的模型能够从图像中提取到正确的语义特征,并为相似的图像生成相似的向量化表示。同时,我们重点研究了困难负样本挖掘和不同的卷积神经网络结构对模型性能的影响。2)我们在基于循环神经网络的视觉语义嵌入学习框架中引入了词嵌入初始化和文本数据扩增,其可以实现两种模态的更好的共同表示学习。在图像方面,我们使用了应用最为广泛和有效的卷积神经网络结构;对于文本方面,我们应用了在自然语言处理中善于处理序列数据的循环神经网络结构,并且使用词嵌入模型以初始化循环神经网络结构中的文本编码器,而且对照了在有无文本数据扩增情况下的模型表现。在模型的损失函数上,我们选择了结合困难负样本挖掘的三元排序损失函数。在实验部分,我们应用迁移学习,在一个小型数据集上做了图像向量与单词向量间的简单的算术运算,表明了我们的模型能够从图像中学习到图像内部的语义特征。通过与其他六种模型的具体比较,实验证明了我们所提出的视觉语义嵌入学习框架在图像标注和图像搜索等任务上表现更好;此外,我们也对模型学习中应用到的训练集使用百分比,以及词嵌入初始化对模型的影响做了重点分析。上述实验同时证明了文本数据扩增更适用于小型数据集,而词嵌入初始化更适合大型数据集。综上,本文在深度学习方法和词嵌入模型的基础上,充分利用学习框架的特征表达能力,来对视觉语义嵌入问题进行研究,挖掘出图像空间和文本空间潜在的语义结构信息。同时,通过广泛的实验和应用证明了我们的学习框架在图像标注、图像搜索和图像相似度检测等方面的有效性。