基于查询导向图的近似最近邻搜索研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:grnjade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数据处理量不断增大,如何在海量、高维度的数据集中进行快速搜索显得越来越重要。数十年来,近似最近邻搜索(Approximate Nearest Neighbor,简称ANNS)一直是一个热门话题,它在数据挖掘,机器学习和人工智能的许多应用中发挥着重要作用。对于稀疏的离散数据(比如文档),用户可以构建高级索引结构(比如倒排索引)来进行有效地最近邻搜索。但是对于密集的连续向量,目前主要有四种类型的方法:基于树结构的方法,基于哈希的方法,基于量化的方法和基于图的方法,其中基于图的方法因高准确度和低查询复杂度而备受关注。实验结果表明,基于图的方法在欧几里得空间中的性能要优于其它流行算法,原因是基于图的方法相比其它方法更能够准确的表达近邻关系。在达到相同搜索精度的情况下,非图的方法需要检查更多的邻居节点,从而使得搜索性能较差。由于图在ANNS的性能上表现突出,许多学者转向基于图的研究。不同的基于图的方法使用不同的构建策略,一种被广泛采用的构建理念就是使图尽可能的稀疏,从而来减少查询代价。本文通过研究发现稀疏图并不能保证查询的高精度(接近或等于100%),或者在高精度区域需要高额计算的开销。为此,本文使用了一种新颖的边缘选择策略来构建图,并将之命名为查询导向稠密图(Query-Directed Dense Graph,简称QDG),在该图的基础上使用基于查询导向的方法进行高效查询,极大地降低了查询开销。QDG的构建和查询过程详细介绍如下:(1)首先构建QDG索引需要初始化的k近邻(k-nearest neighbor,简称k NN)图,现如今这种k NN图有很多方法可以得到,例如NNdescent,KGraph或Faiss。在初始k NN图上,本文通过计算数据集的近似中心(称之为导航节点)得到初始节点,从初始节点开始使用贪婪搜索的方法为图上的每一个节点选择邻居候选集合。本文提出了一种新的边缘选择策略,通过调节节点邻居之间的最小角度来保证创建更稠密的图。根据图论知识可知,图的连通性和图的平均出度相关,尽管稠密图可能会导致搜索复杂度增大,但是它同样增大了图网络的连通性。(2)为了减少查询复杂度,本文采用了经典的K-means方法,对于图上的每一个节点利用余弦距离将其邻居集合进行聚类,这样角度相近的邻居便聚为一类。虽然图本身是稠密的,但是在查询过程中,算法仅仅去检查和查询点的角度接近的部分邻居,以减少查询代价。(3)由于聚类中心本身的存储代价较大,本文使用乘积量化(Product Quantization,简称PQ)的变体将K-means聚类得到的聚类中心以编码的形式存储,通过预计算表得到重构聚类中心来计算该聚类中心和查询点的角度,以此来优化空间和时间性能。通过在不同数据集(来源于真实生活中)上的实验发现,本文提出的方法在查询时间上最多提高了2.2倍。并且由于该方法基于贪婪搜索算法,它同样可以移植到大多数基于图的搜索算法上,并显示出良好的性能。
其他文献
湿度是人们生产生活中重要的环境参数,在工业、农业、航空航天及货物储存等领域扮演着重要的角色。近年来,学者们在提高湿度传感器性能的同时,也开展了突破传统应用领域的研究,特别是在生物医学传感、可穿戴计算、大面积传感等新兴物联网应用领域,激发了对具有共形共面特性柔性湿度传感器的迫切需求。目前市场上常见的湿度传感器往往采用丝网印刷或金属刻蚀工艺制备电容式或电阻式传感器。这些传感器在一些弯曲表面或是人体湿度
铝合金具有良好的耐腐蚀性、优异的疲劳强度以及较高的比强度与比刚度,被广泛应用于轻量化的航空航天设备中。航空航天零件的特点是大型、壁薄,加工过程中易产生变形或变形不可控现象。如典型的大型回转体薄壁零件下端框,零件成形加工时要求高质量与性能。该零件壁厚较薄、刚度低、尺寸较大等特点造成加工工艺性差,难以保证加工精度和质量。当前生产中为达到质量要求,依靠经验采取减小切削用量的方式进行加工,大大降低了加工效
随着鞋类消费的不断升级和推进,国内的制鞋行业快速发展,但是传统鞋类供给与消费升级的需求之间还是很不匹配。目前,国内的制鞋行业中只有一些大型制鞋企业对鞋底自动喷胶进行探索性研究,大多数企业仍然采用手工涂胶。为了提高鞋底喷胶的质量和效率,提高企业竞争力,本课题对冷粘制鞋线机器人自动喷胶作业系统进行研制。机器人自动喷胶系统具备智能轨迹处理、自动处理喷胶任务等功能,不仅提高了喷胶质量和生产效率,还提高了企
随着工业水平和生活质量的提高,利用管道对物料进行运送随处可见,生活污水、石油、天然气、自来水等输送都离不开管道。在使用过程中,管道的损坏是无法避免的,而管道的损坏会带来不可估量的资源浪费甚至严重危害,因此,管道的日常检测和维修也就至关重要。尽管如今常见的传统管道机器人能够代替人工检测管道,大大提高了工作效率,但传统管道机器人大多是刚性机器人,这常常会限制机器人进入形状复杂或管径较小的管道。为弥补这
传感器是获取信息的一种重要工具,处于工业自动化生产的最前端,应用十分广泛。本文研究的反射式光纤位移传感器作为一种测量位移的传感器,具有诸多优点,比如探头小、结构简单、使用简便、寿命长、功耗小、抗电磁干扰能力强,等等。但是该传感器的测量精度容易受一些干扰因素的影响,其中非线性误差、环境温度是两个干扰因素的影响尤为突出。针对这些问题,本文深入研究了解决方案,在此基础上研制出了一套测量系统,核心目标是提
自由曲面在工业领域中应用广泛,打磨技术能够极大地影响自由曲面工件最终表面质量。目前自由曲面打磨还是以人工为主,加工效率低,为保证打磨质量并提高打磨效率,机器人离线打磨取代人工作业已逐渐成为主流加工方法。在打磨过程中,机器人的路径规划是离线打磨的关键技术之一。本文基于ROS开源操作平台,融合路径规划方法,形成了具有打磨仿真环境的机器人离线编程软件系统,并进行了实验验证,本文研究内容如下:首先,本文对
人体运动信息采集和模式识别是人体意图判断、医疗健康、VR虚拟人机交互、可穿戴外骨骼机器人控制等多个领域的研究基础。在可穿戴式外骨骼机器人中,监视和识别人体运动模式尤为重要。可穿戴外骨骼运动控制的前提是能够在进行下一步控制之前判断当前运动情况。可穿戴设备也被频繁设计并广泛应用于医疗保健应用。帕金森氏病的特征可以通过分析步态的变化来评估,步态监测系统可帮助提供患者的实时状态,这有助于医生制定准确的康复
工业的发展离不开钢铁材料的支撑,现代工业的发展对钢板质量的要求越来越高。在钢板生产过程中会产生多种类型的缺陷,如辊印、刮痕和结疤等,这些缺陷会直接影响到钢板的质量、性能,因此需要对钢板缺陷进行有效的检测。本文针对目前传统的钢板表面缺陷检测方法自动化程度低、检测速度慢以及准确率低等问题,研究了一种基于深度学习的钢板表面缺陷检测方法,实现钢板缺陷的智能化检测。钢板表面缺陷具有多类别、多尺度和小目标等特
阿尔兹海默症对中老年人和社会的危害较大,但是目前并没有针对该疾病的特效治疗药物。如果能够尽可能早地检测出阿尔兹海默症的病情发展趋势,就能够及早地对患者采取合适的医疗措施,延缓疾病的恶化进程。根据受试者在恶化为AD前病情的发展趋势将受试者分为平稳型与进展型,平稳型受试者虽然处于轻度认知障碍(MCI)阶段,但却能保持较长时间不继续恶化,而进展型受试者则会迅速转化为AD。因此本文的研究重点在于区分这两种
随着互联网、移动互联网、物联网等相关技术的发展,各个行业的数据量飞速增长,人们急需一种有效的手段充分挖掘海量数据背后所蕴含的价值。群智和众包的出现为解决这个问题提供了更多的可能。为了更有效地管理任务,国内外纷纷涌现不少众包平台,如Amazon的Mechanical Turk、网易的有道众包等。用户可以方便地发布及接受各种各样的任务。然而由于工人的行为具有不确定性,平台方无法直接将任务随机地交付给工