基于图的近似最近邻检索算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dafsgdfgd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,产生了数量庞大的多媒体信息,对数据挖掘技术提出更高的要求。近似最近邻检索(Approximate Nearest Neighbor,ANN)作为数据挖掘中的一个基本问题也是热门问题,旨在从海量数据中快速检索到最相似的数据。但是随着数据维度的增长,传统的基于树的检索方法和基于哈希的检索方法的检索速度和精度,已经不能满足要求。目前基于图的检索方法有着不错的表现,但是仍存在索引构建时间长,索引结构大等问题。本文对基于图的检索方法进行深入研究,提高近邻检索的效率。传统的基于图的检索方法在面对大规模高维数据时,存在索引构建时间长,索引结构庞大的问题。本文提出先对数据进行快速粗略的划分,再对聚簇中心建图的方法,避免直接在原始数据集上建立图索引,可以显著降低索引的构建时间和缩小索引结构。为了提高图索引的质量,采用在预先构建好的knn图上创建新的图索引的方式,用新建的图索引逐步替换掉knn图,索引的结构更加紧凑,可以提高检索精度,并且缩短了检索路径,使得检索速度可以提高。传统的基于图的检索方法都是直接使用原始数据进行距离计算,对候选结果排序,计算量大,并且占用较多的内存空间。采用二次线量化的方式,对原始向量进行量化,压缩了原始数据,可以减少内存空间的占用,降低向量之间距离计算复杂度,并且不依赖查询向量的计算可以提前算出来,提高检索时的速度。在不同数据集上的测试结果表明,论文中设计的算法在保证高检索精度的同时,检索速度更快,索引结构更小。该算法在SIFT1M数据集上的表现,相比于分层可导航小世界图算法,在相同精度下,查询时间降低30%,索引结构缩小45%。
其他文献
车间调度作为生产管理领域的关键问题,决定着企业在一段时间内对各项加工要素的整体配置,对于生产柔性大、自动化程度低的离散制造企业至关重要。但是,由于车间调度问题的复杂性,使用传统的优化方法很难获得优质的调度方案,这使得当前阶段大多数离散制造企业仍然采用手工方式进行车间调度。这种方法不仅成本高、效率低,而且缺乏品质保证,无法应对逐渐扩大的生产规模。为了更好地解决离散制造企业的车间调度问题,首先,结合实
聚乳酸(PLA)作为新型的绿色友好材料有非常广阔的应用前景。为有效解决PLA韧性差、结晶速率低等问题,本文提出了以纤维素改性PLA的方法。首先以细菌纤维素(BC)为底物,使L-丙交酯(LLA)在其表面进行原位开环聚合,得到了BC-g-PLA接枝产物;然后将该接枝产物作为增韧剂添加到PLA中,采用溶液浇筑的方法制备得到复合薄膜材料。结果表明:溶液接枝法的反应效率比熔融接枝法更高,接枝率可达到76.6
天然蛋白质纤维的漂白,是染化技术工作者一向重视的专题。它既要求达到理想的白度,又要避免对纤维的过度损伤。虽然如此,传统的漂毛粉(低亚硫酸钠和焦磷酸钠的混合物)漂白法一直习为沿用,而对白度要求甚高或原色较重的漂白织物,需经繁复冗长的双漂、增白等多道工艺流程,但有时仍
期刊
超声振动搅拌摩擦焊(Ultrasonic Vibration Friction Stir Welding,UVFSW)是在常规搅拌摩擦焊(Friction Stir Welding,FSW)的基础上发展而来的,在搅拌头处复加轴向超声振动,利用超声振动的体积效应和表面效应,影响材料的微观组织结构以及表面间的接触状态,细化晶粒尺寸,提高焊接质量,同时还可以降低搅拌头所受载荷,增长搅拌头使用寿命。本文以
为了进一步促进我国海/陆空跨域协同技术的研究和发展,综述了无人机自主降落标识检测方法的国内外最新研究成果。首先,在分析视觉引导无人机自主降落流程的基础上,简要总结了常用的基于图像分割、基于分类器和基于深度学习的标识检测方法。然后,介绍了无人机自主降落于静平台和车辆、舰艇等动平台的国内外若干研究团队及成果,并对团队采用的降落标识及检测方法进行了梳理。最后,围绕动平台及复杂环境下的标识检测和相关软件算
聚乳酸(PLA)是目前最具发展前景的全生物可降解材料之一。针对聚乳酸材料力学性能和加工性能上的缺陷的解决方法,本文综述了聚乳酸与各种天然纤维材料、微纳米材料、生物可降解和石化基高分子材料等共混复合时,不同材料的相界面和相容性处理方法,并展望了PLA基复合材料的应用前景。
污水处理是解决水资源问题的关键一环。随着国家的重视和大量投入,我国污水处理事业蒸蒸日上、快速发展,但仍存在两方面问题制约着污水处理行业的可持续发展:运营管理难度大,且扩建改造时缺乏参考依据;运营管理依赖人工实践经验,导致管理模式粗放、运行成本偏高以及自动化程度较低。针对这些问题可从三方面着手:发现进水口水质(简称进水水质)规律,对未来进水水质进行长序列预测,为污水处理日常运营管理和水厂扩建改造提供
场景文本图片中文本的存在形式多种多样并且伴随着丰富的背景噪声干扰,这些问题使得场景文本识别(STR)任务依然充满挑战。目前领先的场景文本识别方法可以看成三个模块组成的:(1)将不规则的场景文本图片进行校正的预处理模块;(2)从矫正好的场景文本图片中提取特征序列的特征提取模块;(3)将图像特征序列转换为文本字符序列的特征翻译模块。本论文注意到目前的一些研究工作的注意力主要集中于优化预处理模块,如图像
学位