局部敏感哈希改进算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:kaliya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“大数据”时代给数据检索带来了新的挑战,相似性检索显得尤为重要。局部敏感哈希算法是相似性检索中最流行的一种,该算法是建立在哈希的基础上的一种近似最近邻算法,它能将检索时间复杂度缩减到线性。与其它基于Tree的数据结构相比,局部敏感哈希算法能较好的处理数据在高维空间中的检索问题。注意到高维数据利用该算法检索得到候选集后需要进行相似度计算,而这一部分所耗费时间的占整个数据检索时间的比重非常大,所以该算法在处理大规模数据时的性能仍然需要提高。  针对局部敏感哈希算法,考虑到数据维数和数据量的急剧增加而检索时间还不能满足需求情况下,提出了在不同场合下两种改进的局部敏感哈希算法并应用于图像,本文在局部敏感哈希算法的基础上做了以下工作:  1.对利用局部敏感哈希算法查找前k个最相似(Top-k)的问题,提出了一种基于次数排序的局部敏感哈希算法(ST-LSH)。该算法将唯一化前的索引号按出现次数进行排序来输出,避免了相似度计算花费大量时间的问题。实验结果显示,与改进前的算法相比,在保证识别率基本不变的情况下,改进后的算法大大减少了数据检索时间。  2.在利用局部敏感哈希算法进行数据类别的查找过程中,为了弥补容易受噪声点的影响,提出了一种基于k近邻分类(k-nearest neighbor)局部敏感哈希算法(KNN-LSH)。KNN-LSH充分利用了唯一化后的候选集的信息,利用候选集唯一化后的索引号所属的类别进行k近邻分类。即统计当前候选集所属类别的信息,将查询对象归为所属类别最多的那一类,从而避免了大量的相似度计算。实验结果证明,与改进前的算法相比,KNN-LSH对分类问题的识别率要好于传统方法,具有稳定性,同时也缩短了数据检索时间。
其他文献
近年来,基于对煤矿安全生产监测的需要,国内外先后研制出多种类型的计算机监测监控系统,其中监测监控系统分站是煤矿监测监控系统的重要组成部分,是煤矿井下各安全监控模块与井上
粮食安全问题是关系到我国新时期经济社会健康全面发展和社会稳定的关键问题。而粮食在储藏环节中的损失是影响粮食安全的重要因素之一。为减少粮食储藏过程中的损失,保障粮
通过实际现场环境调研,发现传统的工业数据监测系统存在着能耗大、通信距离短、干扰大以及需要专用通信频带等问题。本文提出了工业无线压力监测系统的设计原则,重点研究了适应
罗克韦尔网络(NetLINK)是一种新型的基于生产者/消费者模式的满足工业实时性的高速总线网络。论文主要研究了NetLINK中的控制层和设备层网络。控制网(ControlNet)属于NetLINK
随着建筑能耗占比的上涨,建筑节能在全球能源局势紧张的情况下已经成为共同关注,亟待解决的问题。根据建筑能耗提出改善建筑设备的控制策略是落实建筑节能减排的一项基本举措
关节式坐标测量机由于其成本低廉、安装方便、动作灵活、重量轻巧、理论上无死角测量等特性在近些年备受关注。本文针对关节式坐标测量机的研发做了以下几项工作:第一,以三关节坐标测量机样机为基础,借鉴机器人学中常用Denavit-Hartenberg(简称D-H)方法对测量机建模,这个模型表达了测量机测头在其基座坐标系中的坐标,在模型中用四个参数来表达每一个关节的特征。第二,转角参数是由安装在关节上的光栅读
伴随着工业发展的日新月异,人们对于科技产品的要求越来越高,传统的机器人夹持器已很难适应时代的需求,作为通用的仿人灵巧手占据了工业生产中不可或缺的位置。在深海或太空等恶
风能因具有可再生、无污染等优点,正受到世界各国的重视。高效而可靠的风力发电系统的研究与开发已经成为能源技术领域的热点和难点。由于风能具有能量密度低、随机性和不稳定性等特点,所以本文首先对风速特性进行了研究,提出了用遗传算法支持向量机来预测风速。其次,研究了风轮的特性和建模,并在基于罗克韦尔公司提供的工控网络架构下,搭建了风力发电系统的仿真实验平台。最后,使用MATLAB软件搭建了风轮和发电机模型,
本文通过对江苏省产业集聚与区域经济竞争力的现状进行深入研究的基础上,对江苏省产业集聚与区域经济竞争力互动关系的机制进行了认真的研究,并建立系统动力学模型进行仿真分
互联网的飞速发展使人们仿佛置身于信息的海洋,信息超载已经成为了人们不容忽视的问题。由于推荐系统能在一定程度上有效解决信息超载的问题,因而我们在电子商务、新闻、音乐、