基于哈希的近似近邻搜索方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Puzzling600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的快速发展,网络上的数据呈爆炸式增长。如何从海量数据中快速搜索用户所需信息已成为一个至关重要的问题,然而传统的暴力搜索方法由于其高昂的计算代价变得不切实际。另一方面,由于实际问题中数据的维度通常比较高,使得基于树结构的搜索方法遇到维度灾难问题。在这个背景下,近似近邻搜索技术成为解决海量数据搜索问题的一个新的突破口,而哈希方法是一种重要的近似近邻搜索方法。这种方法将数据从原始空间映射到二值的汉明(Hamming)空间,使原始空间中相似的样本在汉明空间中也相近,反之亦然。通过这种方式,原始空间中的搜索问题可以转换到汉明空间中进行。由于哈希方法在搜索速度和存储上的显著优势,其己在机器学习、计算机视觉和数据挖掘等领域取得了广泛关注,一系列算法相继被提出。尽管如此,哈希方法中仍有一些重要的问题很少被提及,比如流式数据(streaming data)的哈希函数更新问题、分布式数据的哈希函数学习问题等。本论文围绕上述问题展开深入研究,并在计算机视觉问题中进行应用。具体工作如下:  1.针对流式数据的哈希函数学习问题,本文提出了一种基于数据素描(datasketching)的在线哈希学习方法。实际检索系统中数据通常以流式的形式出现。然而,大多数现有的哈希方法都假设训练数据是事先给定且不会发生变化的,因此很难有效地处理实际问题中的流式数据。本文通过数据素描方法在线地为流式数据维护一个很小的素描,然后基于该素描进行哈希函数学习。为了保持哈希学习过程中数据的零均值特性,本文还提出了一种新的零均值素描方法,并从理论上证明了该素描方法能够保持数据中哈希学习所需要的主要特性。  2.针对分布式数据的哈希函数学习问题,本文提出了一种分布式哈希方法。我们引入了一种基于最小化量化误差的集中式哈希学习模型,并基于该模型设计了一套分布式哈希学习框架。通过引入一致性约束,本文对集中式哈希模型进行形式上的分解,并通过ADMM算法对分解后的模型进行分布式求解。实验证明该求解方法能很快地收敛到一个较好的解。本文提出的分布式算法没有对网络做任何假设,因此可以适用于任意网络拓扑结构。另外,在整个训练的过程中各个计算节点间只需要交换一些中间变量而无需交换训练数据,因此本文方法的通信代价非常小。  3.为了解决基于矩阵特征值分解的哈希方法中长编码噪声大、性能低的问题,本文提出了基于集成学习的哈希方法。该方法仅通过信息量最大的若干个特征向量生成短的哈希编码,然后将多段短编码串联成长编码。为了保证各段短编码间的多样性,本文借鉴了两种著名的集成学习方法,即Bagging算法和随机子空间算法,分别在样本空间和特征空间中随机采样,得到BPCAH和RPCAH两种哈希方法。本文将提出的方法和著名的LSH算法进行类比,并从理论上证明了基于本文方法生成的哈希编码性能会随着编码长度的增加而增强。  4.为了加速三维重建中的图像匹配过程,本文提出一种层级哈希算法。本文将图像匹配问题抽象成搜索问题,通过哈希方法将图像的特征点从欧式空间映射到汉明空间,然后在汉明空间中进行快速匹配。本文提出的层级哈希算法通过多表哈希查找、哈希重投影以及快速哈希排序三层结构来实现由粗到细的搜索过程。本文详细分析对比了层级哈希算法和其它匹配方法的时间复杂度。在精度相当的情况下,层级哈希算法的匹配速度可以达到目前三维重建中最常用的Kd-tree方法的10倍以上。
其他文献
随着国民经济的发展,铁路运输起着越来越重要的作用。作为车辆重要部件的轮对在铁路安全运输中占据重要的地位。传统的轮对检测方法靠人工进行,其效率低,差错率高。目前,我们国家
随着计算机技术的发展,传统的人机交互技术已难以适应越来越复杂多样的需求。用户要求更加自然和智能的交互方法,包括声音、视觉和智能传感器等等。其中基于计算机视觉的方法具
学位
学位
近年来,深度神经网络取代传统的高斯混合模型,在连续语音识别领域已经取得了巨大成功,而传统的说话人识别建模方法仍以产生式模型为主导。不同于语音识别问题可以事先确定其音子
本文是在对故障诊断方法与振动监测系统的开发现状进行广泛调研和深入分析的基础上,针对火电厂大型旋转机械运行状态的特点,进行了故障诊断新方法的应用研究并开发了旋转机械
随着计算机软硬件及网络技术的发展和 Internet 的广泛应用,信息技术已经普遍地运用于各行各业,并为各行各业的发展,正在做出着不可磨灭的贡献。但与此同时,信息系统的安全性
人机交互技术是人类与计算机进行交流所必须的技术,更是智能娱乐机器人的关键和基础。随着计算机逐步应用到社会生活的各个方面,让人与计算机之间的交互更为方便、自然和有效日
序列图像为在不同时间、不同方位对目标连续获取的系列图像,广泛存在于视频监控、辅助驾驶、人机交互、军事导航、导弹打击等社会和军事层面。对于图像的有效表示是众多计算机
物体识别与检测是计算机视觉与模式识别中的基本问题和研究的热门方向。它们在很多领域都有广泛的应用,包括互联网领域基于内容的图像检索,相册自动归类等;包括安防领域的人脸