论文部分内容阅读
随着大数据时代的到来,互联网每时每刻都在产生大量的数据,这些数据资源包括文本、图像、音频、视频等等。面对这些海量高维的数据,如何快速准确的检索到目标数据是目前计算机领域普遍关注的一个重要问题,这就需要人们对这些数据进行有效地存储及索引,并且能够进行高效地查询。近似最近邻检索成为了解决该问题的有效手段,并逐渐应用到各个领域中。高维数据的近似最近邻检索技术主要分为两类,一类是基于模型的方法,如乘积量化(PQ)、加法量化(AQ)、堆叠量化(SQ)等;另一类是基于投影哈希的方法,如局部敏感哈希(LSH)、迭代哈希(ITQ)等。基于模型的方法和基于投影哈希的方法发展都很快,在不同的应用场景下都有各自的优点。在相同的编码长度下,基于模型的方法通常相对于投影哈希方法更加精确,然而距离计算方面要比投影哈希的方法慢。近几年,基于模型的二值哈希成为一个研究热点,比如K均值哈希(KMH)、自适应编码哈希(ABQ)等。该类方法由于引入了模型的思想,所以表示精度较高;同时近邻查找又基于汉明距离计算及排序,所以效率很高,对于高维数据的处理更具优势。不过该类方法受限于二进制表示超立方体的特性,量化结果不能够很好地符合真实数据的分布结构,产生了较大的量化误差。本文深入研究了二值哈希中的典型方法:K均值哈希(KMH)。针对KMH存在总体量化误差较大的不足,提出了一种优化的K均值哈希量化(OKMH)模型及其求解算法,OKMH可以寻找一个更优的子空间划分策略,在减小聚类误差的同时,降低了二值表示引起的距离保持误差。进一步,提出了一种细化的K均值哈希量化(ROKMH)方法,在上述优化模型中加入自适应编码的技术,得到更精炼的二进制编码子集及码本,从而进一步降低了 OKMH的总体误差,提高了近邻算法的检索性能。最后,在四个公开的数据集SIFT、CIFAR-320、CIFAR-512和CALTECH256上,本文对所提出算法的有效性和性能进行验证。通过对量化误差、召回率、精确率以及MAP值等指标的评估及分析,说明了本文方法的有效性。并与主流的哈希方法如LSH、KMH、ABQ等进行检索性能的对比,实验显示,本文提出的方法具备较明显的优势,多数情况下,对于检索结果的相对MAP值提高了 10%左右。