基于压缩树和最近节点优先算法的快速近似近邻查找

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fenghaiweiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在图像处理,机器学习,计算机视觉等许多领域,k近邻查找一直有着广泛的应用,它是很多算法中最基础,也是最耗时的部分。随着科技的发展,大量高维数据的产生,在高维空间下快速查找近似k近邻越来越成为科研工作者关注的焦点。许多传统的快速k近邻算法遇到高维空间时,由于高维数据的稀疏性,容易遭遇“维数灾难”。本文首先简单介绍了一下国内外在快速近似近邻查找方面的现状和研究方向;其次,阐述了k近邻的相关理论,详细介绍了以KD树和层次聚类树为代表的树形结构方向的近邻查找。然后,重点介绍了Set Compression Tree(SCT)算法和Best Bin First(BBF)算法,比较了一下他们各自的优势和不足。在此基础上,结合SCT和BBF各自的优点,本文提出了一种新的算法,称之为SCT-BBF。最后分别在MNIST数据集和SIFT1M数据集上比较了SCT-BBF算法和同类型算法的效果。本文的创新点如下:SCT-BBF利用PCA降维至低维空间,由训练集产生相关SCT的参数,建树速度快;利用BBF算法查找,能以较大概率在极短的时间内找到近似k近邻;最后再次回到高维空间,进行优化搜索,提高近似k近邻的准确率。本算法能在一定程度上克服高维数据带来的“维数危机”,而且总体速度快,准确率也高,是一种有效可行的算法。
其他文献
研究目的:我国学生体质健康水平30多年持续下降,体育课运动密度和运动强度严重不足已经成为了一个不争的事实。《国家中长期教育改革和发展规划纲要(2010-2020年)》、《"健康
工业过程系统具有多变量、高度非线性、工作点连续变化等特性,如何设计控制策略一直是工业界的热点问题。基于“分解—合成”策略的多模型控制为解决这类问题提供了一种有效策略,本文以局部模型网络(Local Model Network,LMN)辨识及其预测控制器设计为研究内容,主要工作包括:为实现对非线性系统的局部模型网络建模,本文利用GK聚类算法,对离线收集的系统输入输出数据进行系统全工况划分,并结合Ko
本文分为两个部分.1.考虑下列二阶哈密顿系统(?)-L(t)u+Wu(t,u)=0,t∈R(HS)同宿解的存在性与多重性,其中对所有的t∈R,L(t)∈C(R,Rn×n)是对称正定矩阵,W(t,u)满足超二次条件
在本篇文章中,我计算了6维带边旋流形的低维体积Vol6(1,3)与Witten形变有关的非交换留数的边界重力.我们通过与Witten形变有关的非交换留数,对于6维带边流形的重力作用,给出一
本文对Stewart六维力传感器进行了相关研究,主要内容包括六维力的各向同性与传感器的主要结构参数之间的关系、结构参数的优化设计传感器样机系统的设计、有限元仿真、解耦算法的优化设计。对于六维力传感器来说,应具有较好的力各向同性度和力矩各向同性度。为研究传感器的结构参数与各向同性性能的关系,建立了传感器的结构模型;针对经典6/6型Stewart结构六维力传感器,通过对雅克比矩阵以及雅克比矩阵的条件数
铜钼等痕量金属是海洋浮游植物与细菌等微型生物生长代谢所必须的营养物质。长期以来,溶解态金属已积累了大量数据,但对微型生物内的痕量元素组成仍缺乏研究。近年来的研究表
目的:分析ART评分与不可切除原发性肝癌重复TACE治疗后总生存期的关系并评估ART评分的预后价值。方法:检索PubMed、EMBase、Web of Science、Cochrane Library和中国知网(CNK
背景:在全球范围内,每年有约84万肝癌新发患者及78万肝癌死亡患者。因此肝癌治疗仍是我们目前面临的主要挑战。目前关于胆固醇饮食及降胆固醇治疗对肝癌发生发展的影响尚存争
在火电厂热工系统预测、分析、控制过程中,往往需要首先辨识出系统的模型。精确的系统辨识,能够更加有效的对系统进行控制。然而由于热工系统非线性特性,通过精确地数学的模
《普通高中生物学课程标准(2017年版)》强调,高中生物学的重要任务是发展学生的核心素养。作为核心素养之一的科学思维,要求学生能够利用模型和建模的方法与思想去阐释生物学现象、解决生物学问题等。因此,研究概念模型建构教学在高中生物学课堂中的应用,对帮助学生理解生物学概念,发展逻辑思维,构建知识网络,形成建模思维,落实核心素养要求,具有重要作用和意义。本研究首先通过查阅相关资料,了解国内外教学中应用概
学位