基于半凸包树的并行批处理快速近邻搜索算法研究与应用

来源 :华侨大学 | 被引量 : 0次 | 上传用户:yuantian723
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的逐渐普及和互联网技术的日益成熟,各个行业每天都会产生海量的数据,而这些数据往往具有规模大、维度高的特性,所以如何从中快速有效的提取有价值的信息给科学界带来了新的研究课题。在处理这些数据过程中一个重要的技术便是信息检索,而从数据库中查询相关信息最根本就是近邻搜索问题。最近邻查询是指在给定集合内寻找与查询点相距最近的点,它是当代信息检索的一种重要手段。基于k-d树的近邻搜索算法是近邻搜索算法中较为经典算法之一,自从1975年提出k-d树结构用于近邻搜索起,国内外很多学者已经对其进行改进也产生了很多成果,但该算法运行速度较慢主要原因是在k-d树中分割超平面都是轴平行导致每个结点的单元格通常都要远大于结点所表示的凸包从而导致计算得到的近似距离远大于实际查询点到结点内最近邻点的距离。针对上述缺陷和分析的原因,本文提出了一种新型数据结构--半凸包树(Semi-convex Hull Tree),并在半凸包树的基础上提出了一个快速近邻搜索算法和其改进版本的近邻搜索算法,对近邻搜索实现了加速,可对大规模数据进行有效处理。本文的内容主要包括以下三点:(1)针对k-d树进行了深入的研究和分析,对k-d树的相关概念、定义进行描述,并详细介绍如何构建k-d树以及如何利用k-d树来完成最近邻搜索。分析它的缺陷以及主要原因,一是目前的分割超平面不是最好的分割轴来计算近似距离,二是由于每个分割超平面都是轴平行的,因此每个结点的单元格通常都要远大于结点所表示的凸包。针对k-d树缺陷和其原因提出新的思路。(2)提出一种新的数据结构--半凸包树,并给出其相关定义和性质。详细介绍半凸包树的数据结构。此外还提出构建半凸包树的算法,其思想是使用非轴平行超平面分割数据空间,将数据空间分割成若干个区域。整个算法的过程主要包括分割超平面的确定以及超平面的继承与改进。每次分割都会得到一些新的结点,它们都代表一个半凸包。每个结点中都是由若干个不同的线性约束和数据点构成。此外本文还对构建半凸包树的算法进行理论分析,其时间复杂度为(7)(7)(8)(8)O n Wlog W,其中n表示数据集总数,W是半凸包树中叶子结点的个数。(3)提出基于半凸包树的并行批处理快速近邻搜索算法,该算法主要思想是利用简化的二次规划计算点到结点之间的距离,并对叶子结点中数据点的重新排序使得算法在GPU上应用时减少指针跳转从而充分利用GPU的并行能力,来完成近邻查询。此外还发现使用半凸包树进行近邻的查询时,在大规模数据集上进行近邻查询其结果与在数据集的一个小样本上进行查询的结果很相似,因而提出一个新的改进近邻搜索算法,即基于样本的半凸包树并行批处理快速近邻搜索算法。通过在各种不同维度的真实数据上验证,实验表明本文提出的近邻搜索算法效率相对于其他算法有较大的提升,尤其是在中低维数据上,随着数据规模的扩大,运行时间依然趋近于次线性。但是在高维数据上仍需要进一步改进。
其他文献
锂离子电池(lithium battery)凭借体积小、高比能量等优秀的性能表现及可靠的安全性已经成为当前应用最广泛的电能存储单元。与此同时,随着生产工艺的不断发展,对锂电池的品质要求也越来越高。然而在流水线生产过程中,由于工艺缺陷、物体碰撞或挤压造成的电池外观缺陷往往很难避免。当前企业的解决方案多为安排专门的质检员按照缺陷类别进行分拣。该方法不但人力成本高,且分类结果受主观性影响大,不利于根据分
学位
近年来,图像自动标注成了当下机器学习最热门的研究方向之一。图像自动标注技术能够将互联网上海量的图像信息转换为文本信息,方便进行图像检索、图像分类等应用。现在主流的图像自动标注模型大部分都采用深度学习网络构建而成,这些模型基于编码器—解码器框架,在编码器阶段利用卷积神经网络提出图像特征,在解码器阶段利用循环神经网络对图像的特征进行解码并且生成对图像的描述语句。本文将分别从编码器和解码器两个部分对其进
学位
随着技术的进步和社会的发展,高质量的图像为人们的生产生活提供着更多的便利。但图像在采集、传输和显示等过程中易产生失真现象,影响图像质量,因此对图像质量评价算法的研究具有重要意义。目前评价算法按依赖参考信息的程度可以分为全参考,部分参考和无参考图像质量评价,其中无参考图像质量评价算法由于完全不依赖参考信息,在实际场景中应用最为广泛。图像对比度失真是数字图像中一种常见的失真类型,然而目前研究人员针对图
学位
基于数据驱动的频域载荷识别技术在现代工程设计,可靠性试验,振动控制等方面具有广泛的应用范围。但在载荷识别过程中往往存在着不适定问题导致识别精度下降,而神经网络可以很好地缓解不适定问题,但是基于神经网络的载荷识别方法存在模型训练时间长,效率低,精度不高的问题。根据传递函数在频域的连续性,本文提出利用迁移学习,提高目标域的神经网络载荷识别模型的训练效率和识别精度,主要研究内容包括:(1)针对基于神经网
学位
红外图像可以在光线条件不好的情况下更加清晰的捕捉人脸信息,因此在实际应用场景中,红外图像的人脸识别也逐渐成为学界研究的热点之一。大量针对红外图像的识别算法被提出,并且达到了优异的性能。然而在实际应用场景中,人们发现经常会出现跨域识别的情况,即数据库中存储的是红外图像,而在特定条件下采集的人脸图像却是可见光图像,或者库中的数据为可见光图像,但采集的图像是红外图像,这种情景在安防领域经常出现。在此背景
学位
随着云计算和物联网等技术的发展,服务化成为软件的主要形态。越来越多的软件服务被开发和部署在互联网上,同时还有大量的虚拟化服务连接现实世界中各种物理服务资源,这些海量的服务通过特定的方式链接在一起形成服务互联网。在服务互联网环境下针对复杂的用户需求,为了实现服务体系的正常运营,服务组合优化技术成为解决这个问题的方法。目前传统的服务组合方法大多针对单一用户需求,在面对大量的同时出现的个性化需求时都是从
学位
汽车作为21世纪最重要的出行方式,极大地便利了人们的生活,其自动驾驶功能也越来越受到人们的关注。障碍物检测和测距是汽车感知周围信息的重要技术,能够为决策者提供重要依据。传统方法采用分类器检测车辆,激光雷达测距,具有鲁棒性差和价格昂贵的缺点。近年来,随着硬件计算能力的极大增强,基于深度学习的行车视觉测距技术已经逐渐成为研究热点。同时,5G的快速建设促进了边缘计算的发展,可以解决传统云计算传输时延大、
学位
目标跟踪是计算机视觉中一项基础但具有挑战性的任务。给予视频序列初始帧中的目标状态,跟踪器需要预测随后每一帧中的目标状态。目标跟踪以其重要的理论价值和广泛的应用价值,吸引了国内外众多研究员和研究机构的关注。虽然目标跟踪已经被深入研究了很多年,也有许多高性能的目标跟踪算法被提出,但在真实世界的场景实现快速、准确的跟踪依然具有挑战性。目标跟踪的挑战主要来自环境的复杂性和目标自身的因素(如背景混杂、非刚性
学位
由于电气原因导致的火灾给人民群众和国民社会造成了生命威胁和巨大的财产损失。故障发生隐蔽、难以及早发现、导致的损失特别巨大是引发火灾的电气故障的一大特点。借助新一代信息技术,在用电终端采集用电数据,并对用电数据进行分析,进而及时预测或识别电气故障给,及时向用户预警或自动切断电源,可以有效降低电气故障引发事故的风险,减小事故导致的损失。本论文主要介绍用电安全监控系统给的开发实现以及故障电弧识别和用电故
学位
信息时代下数据量激增,越来越多应用领域要处理大规模数据集。大量的数据从存储设备中传送到主机进行处理,不仅增加了主机中央处理器的负担,还产生了很大的传输时延。近数据处理提出将一部分基于主机的数据处理下移至存储设备中,以提高应用的整体执行效率。数据库作为近数据处理研究最优的载体之一,近年来得到广泛关注,目前已经实现用近数据处理模型来优化数据库系统。但是,已有的研究结果均为串行化近数据处理模型,主机和存
学位