基于哈希的高维数据近似最近邻查询研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lxget
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据应用的发展给数据库管理带来了新的挑战和契机。其中,海量高维数据的快速检索作为一个非常关键的问题亟待解决。近年来,基于哈希技术的近似最近邻(ANN:Approximate Nearest Neighbor)查询方法,得到了广泛的关注。其优势在于存储效率高、检索速度快,同时保证在很多情况下近似最近邻等同于精确最近邻,在实际应用中已成为解决海量高维数据查询问题的关键技术之一。解决近似最近邻查询的哈希方法可分为两大类:其一,局部敏感哈希(LSH:Locality-Sensitive Hashing),通过一组随机投影将高维特征映射成哈希编码,生成哈希函数的过程不依赖于数据的分布特征;其二,数据依赖型哈希,根据数据分布学习哈希函数,得到更加紧凑的哈希编码。哈希方法的主要研究在于(1)设计高效的哈希函数,获得区分能力强、保距性高的哈希编码;(2)在哈希编码的基础上构建可行的索引结构,并设计高效的搜索算法。本文首先研究基于稳定分布的局部敏感哈希相关的近似最近邻查询算法,如LSB、C2LSH、SK-LSH和SRS。其中,LSB、SK-LSH和SRS算法分别使用不同的策略重新组织哈希编码,使其适应于低维的高效索引结构(如B树、B~+树、R树等),以降低查询过程中的I/O开销和时间开销。但这种哈希编码重组策略固定了哈希函数顺序,可能会导致算法拒绝某些近邻被选作候选点。C2LSH采用十分灵活的动态计数策略选择候选点,使得近邻更容易被选作候选点,但缺乏高效的外存索引结构。针对动态冲突计数策略无法进行有效外存索引的缺陷,本文提出将基于稳定分布的局部敏感哈希函数调整成Binary LSH函数,结合理论计算和实验结果探索Binary LSH函数在保证近似最近邻查询精度方面的优势。继而,将动态冲突计数问题转换成汉明查询问题,并建立一种新的索引结构,能够以较少的外存访问次数实现高精度的近似最近邻查询。为了进一步提升算法的查询精度,本文引入一种高效的数据依赖型哈希算法,近邻敏感哈希(NSH:Neighbor-Sentive Hashing),使得哈希编码对距离查询较近的数据对象具有更好的区分度。近邻敏感哈希的思路跳过了哈希方法普遍遵循的对所有数据对象进行保距的原则,产生直接面向提升近似最近邻查询效率的哈希函数。最后,将近邻敏感哈希与多索引哈希结合起来,以较高的精度实现高维数据的快速近似最近邻查询。本文的实验结果不仅证明了Binary LSH算法在查询性能上的优势,也证明了近邻敏感哈希所产生的哈希编码能够进一步提升近似最近邻查询结果的精确度。
其他文献
在CDMA通信系统中,信道参数的估计,特别是信号传输时延的估计是一个重要问题,但是在异步CDMA通信系统中,传输时延和幅度的估计会受到远近效应的影响.文中使用最大似然(ML)估
深基坑支护的设计、施工、监测技术是近10多年来在我国逐渐涉及的技术难题。深基坑的护壁,不仅要求保证基坑内正常作业安全,而且要防止基坑及坑外土体移动,保证基坑附近建筑物、
结合北京地铁10号线某车站施工监测实践。主要介绍北京地区浅埋暗挖法车站施工监控量测的目的、内容和方法,为今后类似地铁车站暗挖工程施工监控量测提供参考。 Combined wi
针对大射电望远镜精调Stewart平台的五自由度运动特性,采用快速极坐标搜索法确定了五自由度大射电望远镜精调Stewart平台的工作空间.通过实例分析验证了所提出的工作空间分析
利用微生物治理土壤石油污染,是当前应用前景最看好的处理方法,文章对此方面的研究情况作了系统的汇总。现有的研究工作可分为4大类:污染现状评价,影响因素识别,降烃微生物研究,生
【正】 一、城市工业主管机构的现状弄清目前城市工业主管机构的现状是我们进行机构改革的前提。城市工业主管机构是指城市中的工业局或局级总公司,它们一般是与中央部、省级
交通与旅游融合发展是交通运输业与旅游业在新发展时期重要的转型升级途径,这一新阶段中公路交通的功能需求和服务供给与原先相比产生了较大的变化,如果继续按照过去的交通发展思路,公路交通将很快难以满足人们日益增长的交通需求。由于对交旅融合发展特点和要求不明确,以及对区域交通与旅游融合发展程度的不明确,导致交通规划建设盲目、回报低,不能满足区域发展的需求。因此,为了更好地进行交旅融合发展建设,首先对区域公路
近年来,光纤激光器凭借优异的综合性能,在全球工业激光器市场的份额占比接近达到50%以上。在国内市场上,国外光纤激光器占绝大多数份额,为达到更高的国产化率,实现激光器功能的多样化,就需要对光纤激光器的电子控制系统进行研究设计。在光纤激光器工作时,电子控制系统相当于大脑一样,它性能的优异将决定激光器系统的可靠与稳定。本论文的第一部分介绍了光纤激光器的国内外发展现状,分析了不同厂家的激光器电子控制系统控
在研究菱形法等算法的基础上,利用序列图像的相邻块运动矢量的高度相关性和运动矢量的中心偏移特性,提出了一种基于起点预测的快速运动估计算法.该算法设计了菱形和正方形两种模板,在搜索过程中根据图像的内容(运动类型)采用组合模板进行灵活处理,提高了快速块匹配的搜索速度.该算法具有基于内容搜索的特点.实验结果表明,该算法在速度和准确性方面都优于传统的快速运动估计算法.
<正> 对核能的开发利用,我国是较早的国家之一。毛泽东同志健在时,也曾指示要寻找和开发铀矿。在核能的装备上,我国是第三大国,但我国在这方面也有不足之处,把核能利用于生产