论文部分内容阅读
近年来,随着社交媒体网站的大量涌现,分布在互联网上的多媒体数据内容呈现出爆炸式的增长。为了更全面地挖掘多媒体数据,帮助用户从海量且杂乱的数据中获取有价值的信息,大规模跨模态检索的需求与日俱增。与传统的单一模态的检索相比,跨模态检索可以大幅提升用户体验且更符合现实应用场景。但是互联网上的多媒体数据具有数据量大、数据结构复杂、数据维数高的特点,以及不同模态之间存在异构鸿沟和语义鸿沟问题,这对大规模跨模态检索任务是一个巨大的挑战。哈希学习技术作为一种典型的近似最近邻搜索,由于低存储消耗和高效搜索得到越来越多的研究者关注。尽管跨模态哈希方法的研究已经取得了一些进展,但是仍存在许多需要解决的问题。1)如何实现多媒体不同模态哈希码的高效离散优化。一些方法在求解哈希码的离散约束时采用松弛策略,导致较大的量化误差问题和低质量的哈希码,不能很好地解决跨模态检索的异构鸿沟问题。而另外一些离散优化算法采用复杂的梯度下降或按位优化策略,学习效率非常低。2)如何充分地挖掘异构的多媒体数据中蕴含的大量信息。在对数据信息的利用上,一些方法只考虑数据的全局信息,忽略了隐藏在数据分布中的局部相似性,使得检索结果不够精细。3)如何实现哈希码对精细相似度的保持。现有的哈希方法通常将二值相似度嵌入到哈希码中,这种二值相似度损失了大量的语义和特征信息,并且存在平方复杂度问题。此外,在对相似性保持问题上,传统朴素二进制哈希码的表达能力受哈希码长度的限制,不能充分拟合多媒体数据的相似性信息。4)如何实现高效的在线多媒体数据流学习。越来越多的应用场景中,多媒体数据是以数据流的形式收集的,传统的跨模态哈希方法基于批处理的方式学习不同模态的哈希码和哈希函数,学习效率非常低效,不能很好地适应在线跨媒体检索任务。
本论文对面向大规模跨模态检索的哈希方法进行了深入研究,针对上述问题设计了四种监督跨模态哈希方法。主要贡献如下:
(1)针对已有跨模态哈希方法的较大量化误差问题以及对大数据不可扩展问题,提出一种可扩展非对称离散跨模态哈希方法。应用距离-距离差异最小化将多媒体数据的监督信息嵌入到哈希码中,避免应用二值相似度矩阵,降低了时空开销,使模型对大规模多媒体数据集是可扩展的。语义标签是所有模态中最一致的信息,将其作为一个特殊模态,应用协同矩阵分解学习它与不同模态数据的公共潜在子空间,并通过非对称策略将哈希码与子空间建立连接,将更多的信息传递到哈希码中。还提出了一种高效的非对称离散优化算法求解哈希码的二值约束,避免了较大量化误差问题,保证了哈希码的质量。
(2)为了更充分地挖掘多媒体数据中的信息,提出一种全局和局部相似性嵌入的快速跨模态哈希方法。它不仅考虑异构数据的全局相似性信息,还挖掘数据的组内局部相似性信息,能够从视觉上使检索结果更精细。为了更好地利用监督信息,设计了一个包含成对相似度保持和相关类别重构的相似性嵌入框架,从两个角度保持监督信息,可以得到更具判别力的哈希码。还提出了一种高效的组更新离散优化算法,使其计算复杂度与训练集的大小呈线性关系,对大规模多媒体数据的扩展性大大提高。
(3)针对哈希码的精细相似度保持问题,提出一种高维稀疏跨模态哈希方法。从理论上分析并设计一个细粒度相似度,不仅考虑数据的高层语义相似性,还合理地考虑多媒体不同模态的底层特征相似性。由于朴素哈希码的表达能力较弱,不能很好地拟合细粒度相似性,利用高维稀疏编码的强表达能力将细粒度相似性嵌入到待学习的哈希码中。还设计了一种高效的离散优化算法来解决哈希码的二进制和稀疏约束,降低了量化误差。最重要的是,模型的搜索复杂度与朴素哈希方法一样高效。在三个广泛使用的数据集上进行的大量实验表明本文的高维稀疏跨模态哈希模型是非常有效和高效的。
(4)针对在线多媒体数据流检索场景,提出一种标签嵌入在线跨模态哈希方法。设计了一个标签嵌入框架来利用多媒体数据的监督信息,可以生成高判别性的哈希码,降低计算复杂度。通过块相似度矩阵的内积适应,保持新来数据的成对相似性,并且建立新来数据与已有数据之间的联系,使模型对新来数据的敏感性降低,从而得到高效的哈希码。此外,还设计了一种离散优化算法,在不松弛的情况下求解哈希码的二进制约束问题,可以降低量化误差,并且它的计算复杂度只与新来数据的大小线性相关,对大规模多媒体数据集是非常高效和扩展的。在三个基准数据集上的大量实验结果表明本文的模型在准确性和效率方面优于一些最先进的离线和在线跨模态哈希方法。
本论文对面向大规模跨模态检索的哈希方法进行了深入研究,针对上述问题设计了四种监督跨模态哈希方法。主要贡献如下:
(1)针对已有跨模态哈希方法的较大量化误差问题以及对大数据不可扩展问题,提出一种可扩展非对称离散跨模态哈希方法。应用距离-距离差异最小化将多媒体数据的监督信息嵌入到哈希码中,避免应用二值相似度矩阵,降低了时空开销,使模型对大规模多媒体数据集是可扩展的。语义标签是所有模态中最一致的信息,将其作为一个特殊模态,应用协同矩阵分解学习它与不同模态数据的公共潜在子空间,并通过非对称策略将哈希码与子空间建立连接,将更多的信息传递到哈希码中。还提出了一种高效的非对称离散优化算法求解哈希码的二值约束,避免了较大量化误差问题,保证了哈希码的质量。
(2)为了更充分地挖掘多媒体数据中的信息,提出一种全局和局部相似性嵌入的快速跨模态哈希方法。它不仅考虑异构数据的全局相似性信息,还挖掘数据的组内局部相似性信息,能够从视觉上使检索结果更精细。为了更好地利用监督信息,设计了一个包含成对相似度保持和相关类别重构的相似性嵌入框架,从两个角度保持监督信息,可以得到更具判别力的哈希码。还提出了一种高效的组更新离散优化算法,使其计算复杂度与训练集的大小呈线性关系,对大规模多媒体数据的扩展性大大提高。
(3)针对哈希码的精细相似度保持问题,提出一种高维稀疏跨模态哈希方法。从理论上分析并设计一个细粒度相似度,不仅考虑数据的高层语义相似性,还合理地考虑多媒体不同模态的底层特征相似性。由于朴素哈希码的表达能力较弱,不能很好地拟合细粒度相似性,利用高维稀疏编码的强表达能力将细粒度相似性嵌入到待学习的哈希码中。还设计了一种高效的离散优化算法来解决哈希码的二进制和稀疏约束,降低了量化误差。最重要的是,模型的搜索复杂度与朴素哈希方法一样高效。在三个广泛使用的数据集上进行的大量实验表明本文的高维稀疏跨模态哈希模型是非常有效和高效的。
(4)针对在线多媒体数据流检索场景,提出一种标签嵌入在线跨模态哈希方法。设计了一个标签嵌入框架来利用多媒体数据的监督信息,可以生成高判别性的哈希码,降低计算复杂度。通过块相似度矩阵的内积适应,保持新来数据的成对相似性,并且建立新来数据与已有数据之间的联系,使模型对新来数据的敏感性降低,从而得到高效的哈希码。此外,还设计了一种离散优化算法,在不松弛的情况下求解哈希码的二进制约束问题,可以降低量化误差,并且它的计算复杂度只与新来数据的大小线性相关,对大规模多媒体数据集是非常高效和扩展的。在三个基准数据集上的大量实验结果表明本文的模型在准确性和效率方面优于一些最先进的离线和在线跨模态哈希方法。