论文部分内容阅读
近年来,因特网的发展和社交媒体的兴起使得多媒体数据规模增长迅速同时数据种类也不断增加。给定某个模态的查询,跨模态检索希望返回的是与其相似的另一个模态的样本,比如利用文本来检索相关的图片或视频。哈希方法凭借其检索速度快、存储开销小的优势在大规模数据检索领域引起了相当多的关注。很多基于哈希学习的跨模态检索方法被提出并取得了一定的检索效果,然而这些方法可能仍有一些限制。首先,大部分哈希检索方法直接采用线性映射来将不同模态的数据映射到公共的汉明空间中。哈希方法的目的是相似性保持,由于异构数据的复杂性,线性映射难以保持原始空间中的相似性,导致此类方法存在巨大的误差。其次,大多数监督跨模态哈希方法构建相似性矩阵的规则是:如果两个实例有至少一个相同的标签则视为相似。然而这种定义方式过于简单且丢失了很多有用的监督信息。最后,大多数哈希方法在优化的时候选择松弛或者舍弃离散限制来解决一个连续优化问题,再将实值解量化成二进制码,这会导致巨大的量化误差。目前已有一些论文提出采用离散优化策略,但这些方法通常仅适用于单模态。为了克服这些限制,本文提出了一个新颖的跨模态哈希方法,称作基于字典学习的监督离散哈希(Dictionary Learning based Supervised Discrete Hashing,简写为DLSDH)。DLSDH是两步哈希方法,分为哈希码学习过程和哈希函数学习过程。DLSDH构造的成对相似性矩阵和离散迭代优化策略使得哈希码学习过程学得更高质量的哈希码。在哈希函数学习阶段,DLSDH首先为每个实例生成稀疏表示,再映射到低维汉明空间中。本文提出的方法其主要贡献有:·提出了一种基于字典学习的监督跨模态哈希方法,首先为每一个模态学习一个字典并为每一个实例生成稀疏表示,相比于复杂的原始特征稀疏表示更适合映射到低维隐空间中,解决了相似的实例在低维隐空间中难以接近的问题。·为了充分利用原始标签信息,DLSDH使用余弦相似度来计算成对的相似性,新构建的相似性矩阵能更好地监督哈希码学习过程。·DLSDH采用列采样策略来解决离散优化问题,避免了量化带来的误差。同时,DLSDH在训练时使用的是整个数据集而不是采样数据,保证了哈希函数的泛化性能。·通过在三个数据集上与先进跨模态哈希方法进行对比实验,证明DLSDH的检索性能优于或者媲美先进对比方法。同时,实验证明了余弦相似性矩阵的有效性。