论文部分内容阅读
随着互联网的飞速发展,图像、文本、音频、视频等多模态数据呈爆炸性增长,人们早已不满足于单模态数据之间的检索,例如图像检索图像,文本检索文本。随着多模态数据的日益增长,人们希望能实现多模态之间的互相检索,例如图像检索文本,文本检索图像等。因此,近些年来,跨模态检索成为了研究的热点。不同模态的数据拥有不同维度的特征空间,如何衡量它们之间的相似性成为了研究的难点。在现实生活中,无标签数据比有标签数据更容易获得,手动标注这些无标签数据,需要耗费大量的精力,如何在部分有标签数据的基础上,挖掘无标签数据包含的标签信息成为了研究的难点。为了更好地利用这些无标签数据,本文主要研究的是半监督跨模态检索方法。针对以上存在的问题,为了更好地保留多模态数据间的相似性,同时将不相似的数据分离开来,本文提出了基于模态相似性保持的半监督深度哈希模型。在此研究的基础上,为了更好地保留数据的特征信息,同时减少冗余噪声带来的负面干扰,本文提出了基于模态相似性保持的降噪自动编码器半监督深度哈希模型,进一步提高了跨模态检索的准确率。具体研究工作如下:1.针对现有的一些模型存在不能很好地保留多模态数据间的相似性,不能有效地将不相似的数据分离开来的问题,本文提出了基于模态相似性保持的半监督深度哈希模型(SS-LPDP)及学习算法。该模型分为标签预测、哈希码学习和距离保留三部分。首先利用深度神经网络提取图像和文本的特征,学习相应的哈希函数将不同维度的特征投影到一个公共空间中,根据部分有标签数据的特征分布来预测无标签数据的标签信息。然后将标签信息和提取的特征作为输入,进行哈希码学习和距离保留。最后根据每一轮训练中模型参数的变化,动态更新无标签数据的标签信息。实验结果表明SS-LPDP模型相较于最近的一些模型,在检索准确率上取得了一定的提高。2.针对SS-LPDP模型在训练时忽略了冗余噪声带来的负面干扰,在此模型的基础上,结合降噪自动编码器的思想,提出了基于模态相似性保持的降噪自动编码器半监督深度哈希模型(SS-DAE)。首先利用深度神经网络提取图像和文本的特征,将提取的特征输入到一个降噪自动编码器中,降噪自动编码器包含随机加噪部分、编码部分、解码部分三部分。然后根据部分有标签数据的特征分布来预测无标签数据的标签信息,将标签信息和编码部分提取的特征作为输入,进行哈希码学习和距离保留,同时,根据解码部分提取的特征和由深度神经网络提取的特征,定义降噪自动编码器的重构损失函数。最后根据每一轮训练中模型参数的变化,动态更新无标签数据的标签信息。实验结果表明SS-DAE模型相较于最近的一些模型,在检索准确率上取得了一定的提高。