局部敏感哈希算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lu_bo_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据的近邻搜索是许多应用研究的一个基础问题,它需要依赖于有效的数据结构和算法。本文主要研究了局部敏感哈希算法并对其进行了改进。  在本文中,我们首先阐述了局部敏感哈希算法的基本思想,并介绍了几个具体的局部敏感哈希算法:基于汉明距离的局部敏感哈希算法,基于 P稳定分布的局部敏感哈希算法,多探寻的局部敏感哈希算法。注意到上述算法中回收数据的处理依赖于对数据的距离的计算和排序,这需要花费大量时间。针对此,本文提出了一种对于局部敏感哈希算法的改进方法,其主要思想是使用数据的出现次数来近似数据的距离,从而从回收数据中获得结果。在该算法中,我们在数据的回收过程中统计数据的出现次数,然后将数据按其出现次数分类,并按其出现次数的大小依次获得结果。  最后,本文给出了两个评估局部敏感哈希算法的两个标准参数,并分别使用实际数据和模拟数据对算法进行了测试,证明了该方法能有效的减少算法的运行时间,提高算法的时间效率。
其他文献
数据挖掘技术可以从海量数据中挖掘出潜在的、有意义的知识,而从海量数据中找到那些极少数的异常行为,并从这些异常行为中发现有意义的模式是一个富挑战性的工作。现实应用领
随着人类海上运输的发展,海上溢油事故就接连不断,海上溢油不仅给人类社会带来巨大的经济损失,并且带来不可估量的环境和生态影响。由于海洋溢油具有不可预见性和瞬时性等特
我们每天都在创造、传递和接收信息,信息在当代正处于空前膨胀的状态。面对处理如此海量的数据所带来的问题,专家学者和业界都在进行相关研究,其中重要的两个方向就是云计算
在视频应用普及的今天,电信网,电视网,互联网的整合催生的视频格式转换需求,以及视频应用本身存在的多格式,多平台,多编码标准,高清化,海量化的趋势越来越明显,使得现有的视
随着移动互联网的快速发展,网络用户信息的安全性问题日益突出。人脸识别技术与传统身份识别技术相比,具有更好的稳定性、可靠性和有效性,因而更适合应用于移动互联网的安全
我国的股票市场经过了近二十年的发展变得逐渐完善,股票已经成为了大家愿意承担风险的理财手段,对于广大的投资者来说,对股票市场进行价格预测分析有着极其重要的意义。目前国外
随着互联网的发展和网民数量的快速增长,越来越多政府、学校、企事业单位的业务都依托于网站。与此同时,由于各类Web应用系统的复杂性和多样性,特别是缺乏必要的安全性维护,网页
计算机视觉系统在视频监控、自动驾驶、城市交通系统等很多领域得到了广泛应用,但在雾霾天气状况下采集获取的图像质量严重下降,不仅图像清晰度降低,对比度差,而且雾霾图像往往还
随着网络和多媒体技术的发展,远程教育使学习过程发生了翻天覆地的变化。学生可以通过网络独自学习在线课程和理论知识;在线协作写一篇某一主题的文章;老师和学生在异地进行实
概率模型检测是一种形式化的验证方法,它首先将目标系统建模成一个概率模型,并用概率时序逻辑刻画要验证的属性,然后判定模型是否满足此属性,或是求解属性的值。相对于实验和仿真