论文部分内容阅读
随着互联网时代的到来,图像、视频、音频等数据呈指数趋势不断地增长。“维度灾难”让传统的图像检索技术中的检索效果和检索速度逐渐发生退化。在图像检索的研究中,特征提取和索引构建都是检索任务中的关键技术。为了降低图像维数,很多研究者将注意力转移到流形学习上。其旨在高维空间中找到低维流形结构进行嵌入映射,以此达到降维效果。哈希方法通过将原始图像转化为紧凑的二进制码表示,减少了数据存储所占用的空间,还可以加快检索速度。因此,流形学习与哈希函数相结合能够更好的适用于大规模图像库检索。基于哈希的图像检索算法大致上可分为两个阶段,先降维然后再量化。这两个阶段对于最终图像检索性能的影响都是至关重要的。为了减少间接优化带来的损失,研究者已考虑到直接在汉明空间中通过学习最优二进制编码来保留原始数据之间的相似性。如何更好的体现原始数据间的相似性,对学习到最佳二进制编码也是同样重要的。本文的主要工作如下:提出了基于稀疏性LLE的哈希算法(SLLH)。该算法对流形学习中经典算法LLE进行改进,采用一种稀疏的权重表示,使每个数据点找到更适宜自己的最近邻居以达到更好地保存原始数据间的流形结构的目的,其次尝试在汉明空间中直接学习和保留流形结构。即由原始特征空间中相似的数据点重构二进制码,这样不仅完好地保留的原始数据间的相似性同时还减少了间接优化带来的误差。提出了基于锚点的LLE的哈希算法(ASLLH)。基于LLE的哈希算法,这也是以往在基于流形的哈希方法中普遍存在的问题。在运算过程中都忽略了在哈希函数学习过程中需要计算原始数据的相似度矩阵,这将导致哈希函数的离线学习非常耗时且耗费内存。为了进一步处理时间和内存消耗问题,采用锚点集替代整个数据集进行计算,即通过利用K-means聚类产生锚点的非对称图来近似LLE算法中的原始相似度的矩阵,减少运行时间和内存。通过在多个常用的公开的大规模图像数据集进行测试,本文所提出的算法与目前主流的图像哈希算法相比较都表现了良好的检索性能。在基于前面算法研究上,成功开发了一套使用简单且有效的图像检索系统,并借助于相应的实验对提出的检索算法加以验证。