基于位置敏感哈希的近似kNN查询算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:aeo55121890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术和网络信息检索技术的不断发展,尤其许多应用面临数据量呈几何级快速增长,并且数据维度也逐渐变高。那么,如何高效地处理海量高维数据的k近邻(k-Nearest Neighbors, kNN)查询问题已经成为当前的一个重要研究课题。由于“维度灾难”的出现,基于R-tree及其变种索引结构已经不能够满足用户的需求,算法效率表现出比暴力查询方法更差的性能。位置敏感哈希(Locality Sensitive Hashing, LSH)是最受欢迎且适合于解决处理高维数据空间下的近似kNN查询问题。然而,该方法的缺点在于为了保证较高的查询质量需要构建许多哈希表,导致存储代价较高以及查询效率低下;此外,随着处理数据量规模的不断增大以及MapReduce编程模型的广泛使用,传统单机上的查询算法已经不具备处理海量数据的能力,查询效率、索引代价等各方面都存在很大的提升空间。为了解决上述存在的问题,本文针对现有基于LSH的近似kNN查询算法进行了深入的研究,主要做了以下相关工作:(1)针对现有LSH相关算法索引存储代价高以及查询效率低下等问题,本文提出了一种新的二级混合索引结构LSRP-tree,它先利用RP-tree将整个数据集划分成多个子聚类,然后再对每一个子聚类构建基于LSH的哈希表。基于该索引结构,充分利用LSH哈希函数碰撞的特点,还分别设计了两种不同的CCP和CCF近似查询算法,有效地完成了高维数据空间下的近似查询操作。与LSB-tree/LSB-forest方法相比,本文算法在查询效率、查询质量以及空间代价方面均有很明显的提高。(2)为了解决大规模数据处理能力不足的问题,文中在分析位置敏感哈希算法以及MapReduce编程机制的基础上,利用当前非常流行的MapReduce编程模型,结合MapReduce机制本身的特点,研究了基于LSH的近似kNN查询算法,设计了一种新的分布式索引结构,并且提出了相应的查询方法。该方法可以有效地解决海量数据环境下的近似kNN查询问题。最后在真实以及人工数据集上进行大量实验,实验结果表明我们的算法具有良好的查询性能以及高可扩展性。
其他文献
伴随着环境保护、绿色发展和可持续发展的要求,增加计算机系统的能量效率对于研究者、架构师、系统设计者和软件开发者等人而言已经变成了最有价值的研究热点之一。目前已经
模糊限制信息,又被称为不确定信息,是自然语言文本中经常出现的一种语言现象。模糊限制信息通常出现在下列的情况下:事实不能被确定,或者说话人在表达时有意的省略某些信息,使
随着计算机辅助设计(CAD)的迅速发展,现代工业生产设计已渐渐离不开计算机辅助几何设计技术(CAGD)的理论支持和应用。作为计算机辅助几何设计领域中一个重要方面,参数插值曲
增强现实是近年来一直受到追捧的一个研究热点,可以将一个真实场景中不存在的物体通过计算机生成虚拟图像,叠加到真实存在的场景图像中,虚拟信息与现实世界的完美融合,创造出
流体模拟被广泛应用于电影动画特效、工业设计等领域,从早期的高度场方法到近年来流行的基于物理的模拟方法,流体模拟方法迅速发展。流体模拟涉及内容广泛,除了常见的烟雾、水流
古语云,“秀才不出门,全知天下事”,意思是学识渊博的人,即使不出门,也清楚的知道外面的世界所发生的事情。在遥远的过去,此言犹如痴人说梦。然而科技的发展一日千里。计算机
最近几年,在传感器领域、电子信息领域中,数据量每天以很大的规模增长,其中科学界可以从这些大规模的数据量中提取很多有用的信息,并用这些信息智能决策很多问题。怎样从获得的源
随着信息化的快速发展,出现了一种现象:虽然应用系统在增多但是信息共享的程度却并没有相应的增大,出现这种现象的原因在于系统之间没有提供共享的调用接口。因为这些系统是在
随着我国核技术、核工业和建设行业的迅速发展,环境放射性污染对环境保护、公众安全的影响增加,其逐渐被民众重视。为有效减少放射性核素的危害,建立辐射环境监测系统对区域
复杂网络通常具有内部链接紧密,外部链接稀疏的特性,探索复杂网络社区发现方法对分析论文引用网络、万维网、蛋白质交互网络和交通网络等具有重要意义。复杂网络节点间不仅存在