基于近邻图的局部敏感哈希索引技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：zx385213

【摘要】

：

随着社会的发展和时代的进步,数据维数越来越高,数据库规模越来越大,复杂性越来越高,那么怎么从海量高维数据中快速找到目标数据成了一个难题。对于低维的小数据集,我们可以

【作者】

：

王凌霄

【出处】

：

西安电子科技大学

【发表日期】

：

2017年期

【关键词】

：

高维数据近似最近邻局部敏感哈希空间曲线近邻图

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会的发展和时代的进步,数据维数越来越高,数据库规模越来越大,复杂性越来越高,那么怎么从海量高维数据中快速找到目标数据成了一个难题。对于低维的小数据集,我们可以通过线性计算很容易解决,但是对于海量高维数据集,线性查找往往需要很庞大的运算量,非常耗时。为了解决这一难题,一方面需要设计更加高效的索引结构对数据进行有效组织,另一方面需要为索引结构配以高效的查询机制实现更加准确快速的搜索。这种技术我们称之为高维最近邻查询(Nearest Neighbor,NN)技术,现已成为海量多媒体数据检索研究中的一个基础问题。由于高维空间中存在“维数灾难”现象,使得高效查找精确最近邻变得十分困难。而通过牺牲少量精度以求解近似最近邻(Approximate Nearest Neighbor,ANN)代替精确解却能够获得巨大的效率提升,因此研究者们重点关注近似最近邻查询技术。目前,局部敏感哈希技术(LSH)及其变种被公认为是近似最近邻查询最有效的解决方案。LSH的基本思想就是:原始数据空间相邻的两个点通过相同的映射或投影后,这两个点在新的数据空间中相邻的概率同样很大,而不相邻的两个点被映射进同一个桶里的概率很小。本文对局部敏感哈希技术、空间曲线和近邻图进行了重点研究和分析。在局部敏感哈希技术方面,对目前的多种哈希算法进行了学习和研究,对其技术优劣性进行了分析。局部敏感哈希的优势是能实现候选点的快速筛选,通过构建复合哈希函数能有效过滤不相关点得到高质量的候选集,但缺点是访问候选点依赖大量的随机I/O,而且存在大量漏报,为了获取高质量的返回结果,需要构建多个哈希表,访问足够多的候选点,从而导致了庞大的时间和空间开销。空间曲线可以建立复合哈希值的线序关系,从而能实现邻域的快速定位。近邻图技术借助数据点间的邻接关系能快速地收敛到更好的候选点,但受初始搜索点质量的影响容易陷入局部最优。为了克服当前LSH方法的缺陷,本文提出了一种新的算法——NNG-LSH,该方法通过空间曲线和近邻图来实现邻域快速定位和近邻搜索的局部收敛。作者首先通过空间曲线在复合哈希值上建立一种线序(即字典序)关系,然后对应的原始数据集也是升序排列,这样哈希值相似的点可以被存储在连续的磁盘页上,从而为在查询过程中减少随机I/O访问,实现邻域的快速定位奠定了基础。在近似最近邻查询过程中,引入近邻图,通过查询点所在页面的近邻点进行收敛,从而达到局部近邻优化,提高返回值的准确度。本文通过在四个真实的高维数据集上大量的实验以及对比表明,与当前最新的LSH方法对比,证实NNG-LSH在近似最近邻查询中的准确性和空间需求方面是有优势的。

其他文献

基于心理契约视角探析90后管理研究

随着时间的推移,90后已经逐渐成长为职场中的主力军,家庭环境及教育环境发生的变化造就了90后独有的个性特征,同时也给企业的人力资源管理提出了新的挑战。本文尝试以＂心理契

期刊

心理契约90后管理研究

大鼠骨髓内皮祖细胞SPIO体外标记的实验研究

目的探索体外超顺磁性氧化铁(superparamagnetic iron oxide,SPIO)标记大鼠骨髓内皮祖细胞(endothelial progenitor cells,EPCs)及其条件优化,为下一步EPCs活体示踪实验奠定

期刊

内皮祖细胞超顺磁性氧化铁标记

RL与C并联谐振电路品质因数精确值的计算

在谐振电路中,品质因数是一个重要的参数.一般教材对RLC串联谐振电路和RLC并联谐振电路的品质因数讨论较多,品质因数一般定义为电压或电流之间的比值.对实际应用中较为常见的

期刊

品质因数谐振频率

基于无线供电的旋转式LED点阵显示演示仪

本文通过磁耦合共振的无线输电技术实现了对旋转LED主板的供电,并研制出一套旋转式LED点阵显示演示仪;通过STC12C5A32S2单片机实现对LED的控制和显示;通过红外通信实现对显示

期刊

磁耦合共振无线输电旋转LED单片机

商业WiFi云端业务管理平台的设计与实现

近些年来,随着无线通信技术的蓬勃发展以及诸如智能手机、平板等各种智能终端设备的迅速普及,用户已不再满足于使用3G/4G网络进行上网,而对于无线WiFi网络的使用与日俱增,Wi

报纸

商业WiFi云平台热点Portal服务器UML建模

经济结构变迁对TFP和中国经济增长的贡献度研究

在中国,对于转型和发展的讨论自始至终都没有停息过。经济转型发展必须在产业升级和结构变迁的共同作用下才能够得以实现,因而结构变迁是实现经济转型发展的必经之路。虽然改

学位

经济结构变迁经济增长随机前沿分析

尼曼匹克病C型诊疗新进展

尼曼匹克病C型(NPC)是一种常染色体隐性遗传的溶酶体脂质贮积病,主要累及内脏器官和神经系统,自婴幼儿至成人均可发病,儿童期多见。新生儿期持续存在的胆汁淤积性黄疸、脾脏

期刊

尼曼匹克病C型脾脏肿大垂直性核上性眼肌麻痹泡沫细胞美格鲁特

中国上市银行系统性风险估计:模型与应用

文章利用2007年3月～2011年2月中国14家上市银行的非平衡面板数据,通过构建多因子风险计量模型,对我国上市银行的总风险、系统性风险以及非系统性风险状况从纵向动态变化和横向

期刊

上市银行系统性风险多因子模型

争当全国生态文明建设排头兵

<正>大力推进生态文明建设,构建生态安全屏障,既可推动云南自身发展,也可彰显区域生态优势,充分展示云南科学发展的蓬勃生机和活力,使云南在参与国际国内区域合作中发挥更大

期刊

生态文明建设区域生态保护生态环境生态文明体制改革排头兵

基层医疗卫生机构医用中心供氧系统的设计

针对基层医疗卫生机构的特点,基于临床用氧的不同需求,结合变压吸附和膜法空分两种常温空分技术,对制氧设备、缓冲存储、氧气提纯、控制系统及管路系统等进行了详细设计与选

期刊

氧富氧空气医用氧中心供氧系统

基于近邻图的局部敏感哈希索引技术研究

与本文相关的学术论文