论文部分内容阅读
随着各种不同形式的多媒体数据(文本、图像、音频、视频等数据)的海量增长以及用户对检索体验要求的提高,不同模态、不同媒体数据之间的跨模态检索方式成为了检索领域新的发展趋势。跨模态检索系统中用户只要输入任一种模态的数据,就可以检索返回相关的其他模态数据,使得检索结果更加丰富,满足用户的多元检索意图。考虑到存储成本、检索效率等问题是大规模多媒体数据检索的主要瓶颈,本文以多模态数据的稀疏表示为出发点分别提出了多图正则化稀疏编码的跨模态检索算法和变长度稀疏表示的跨模态检索算法,并进行了理论分析,同时在WIKI和NUS-WIDE等经典数据集上验证了它们的有效性。本文的创新工作有:1.提出了多图正则化稀疏编码的跨模态检索算法。首先针对跨模态检索中的多模态统一稀疏编码表示算法(MURL)只利用标签信息构造拉普拉斯矩阵表示数据关系,导致学习到的稀疏编码不能保持原始数据本身的空间拓扑信息,类别判别性弱等问题,提出了基于多图正则化稀疏编码的跨模态检索算法。然后通过加入各模态数据的拉普拉斯矩阵的线性组合方式来保证稀疏编码具有原数据的局部空间几何近邻关系,另外加入标签矩阵的线性回归项来加强稀疏编码的类别区分性来提高检索准确率,最终在统一稀疏编码空间内进行匹配、跨模态检索。与MURL方法相比,在WIKI和NUS-WIDE数据集上,MAP指标值分别提高了22%、12%,同时也高于典型性相关分析(CCA)、半耦合字典学习(SCDL)的方法。2.提出了基于变长度稀疏表示的跨模态检索。哈希编码是稀疏表示的特殊形式,近几年提出的跨视图哈希(CVH)、语义相关最大化的哈希编码(SCM)、语义保持哈希(SEPH)等方法把多模态数据映射到共同的哈希编码空间,通过松弛哈希编码的二值约束求解,学习到的多模态哈希编码是两种模态的折衷。因此不能够有效地表示各模态数据,使得类别区分性较弱。针对这些问题,本文提出了基于语义保持的方式把各模态数据分别映射到各自的最优长度的哈希编码空间,再通过二值约束的离散跨模态哈希算法求解各模态数据的最优哈希编码,从而获得不同模态的变长度哈希编码,最后通过保持语义相关的线性变换实现跨模态检索。提出的变长度哈希编码的跨模态检索模型对单标签或多标签、成对或非成对的多模态数据集场景都具有很好的适应性。在WIKI数据集、NUS-WIDE数据集和MIRFlickr数据集上验证了本文方法的性能总体上优于相关的SCM、SEPH、GSPH等跨模态检索算法。3.对集成稀疏编码和哈希编码的跨模态检索模型进行了探讨。虽然基于哈希编码的方法检索速度快捷,但是在一定程度上可能损失了原始数据的信息。为了既保持快速高效的检索,又要尽可能保全原始数据信息,因此本文将稀疏编码和哈希编码的优势结合起来做了一些稀疏哈希跨模态检索的探讨性工作,并在WIKI数据集上做了详细的实验表明检索性能有一定的改善。