基于哈希及聚类的高维数据近似最近邻查询研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hot8391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网、大数据、多媒体、云计算等信息技术逐渐成为国家发展的关键领域。各个领域的信息迅速膨胀,对海量高维数据的有效管理和快速查询成为亟需解决的问题。传统的索引方式在高维情况下受到“维度灾难”的影响,其查询性能甚至会劣于线性查询。基于哈希方法的近似最近邻查询是解决上述问题的有效方式,除海量高维数据的快速查询外,哈希方法在模式识别、计算机视觉、机器学习、数据挖掘等大规模数据领域也具有深厚的研究意义。哈希方法在高维空间下具有低存储成本和查询高效的优势,使得很多情况下近似最近邻查询的结果等同于真实最近邻。根据哈希函数的生成方式,哈希方法分为数据无关哈希和数据相关哈希两大类。局部敏感哈希作为主流的数据无关方法,使用随机投影生成哈希函数,生成的过程独立于数据分布,高维数据经过哈希映射生成二进制编码进行快速高效的查询;数据相关哈希是一种基于数据分布特征的哈希方法,根据数据集中数据的属性特征设计更有效的哈希函数,使原始空间下的高维数据点经过哈希函数的映射得到更加紧凑的二进制编码。哈希方法的研究主要分为两方面:(1)设计哈希函数,获得紧凑、保距性强、高区分度的哈希编码;(2)构建高效的索引结构,设计查询算法。首先,本文分析了传统的索引方式在高维情况下存在的问题,归纳并总结数据无关和数据相关的哈希方法,分析数据相关哈希方法相比于数据无关哈希方法在近似最近邻查询下具有的优势。其次,本文研究基于p稳定分布等数据无关哈希的近似最近邻查询算法,针对局部敏感哈希在查询精度及索引结构上存在的问题,本文研究将聚类和传统的哈希相结合的方法,通过聚类保持数据对象之间的相似性,使用哈希方法将数据对象转换成哈希编码并建立倒排索引,检查包含查询点的桶和与查询点相邻的桶中的数据,实现快速高效的近似最近邻查询。接着,由于数据无关哈希方法的查询精度有限,本文引入近邻敏感哈希这一数据相关方法,进一步提升近似最近邻的查询精度。近邻敏感哈希与传统哈希方法相反,没有选择保留汉明空间中相似对象的相似度,而是最大化相似对象之间的汉明距离,用以更好的区分近邻数据对象,提高近似最近邻的查询精度。最后,针对近邻敏感哈希方法中存在的中心点的选择问题,本文提出基于超球体聚类初始化方法,该方法可以更好地描述数据集的整个分布特征,使得聚类中心尽可能多地覆盖整个数据集中的所有数据对象,更加适用于近邻敏感哈希方法,进一步提升近似最近邻查询的精度。本文的实验证明了基于超球体聚类初始化方法的近邻敏感哈希方法与其他方法相比在查询性能上的优势。
其他文献
介绍了长钢H型钢工艺设计特点,并重点介绍万能轧机、轧辊的设计及开坯机的孔型设计、特点和规律。
当液体/气体移动通过介质时会产生噪声。这个噪声来自流体本身和流体流动时周围元素的振动,是流体内部摩擦和高湍流产生的声音的结果,也可以由气体的气泡和滑移产生。流体噪
针对涪陵深层页岩气水平井开发过程中存在井壁失稳、摩阻较大以及起下钻困难等问题,在分析研究钻井液技术难点的基础上,结合该区块具体地质特征,提出了相应的钻井液技术对策,
作为企业战略实施保驾护航的重要工具,全面预算发挥着重要的作用,但是,在我国,受到外界各种因素,如认为干预的影响,全面干预都只是表现在表面上,全面预算管理在量化分配企业
随着经济和科技的发展,随着人们对于护理行业的重视,在护理模式多样化方面取得了较大的突破和发展,其中中医护理已经获得了临川实践的认可。中医护理属于护理行业,其具体护理
本文对2005~2013年新疆金融资源的南北疆分布差异进行了实证研究,结果表明新疆南北疆之间金融资源的差异不断扩大。南北疆内部金融资源的标准差与极差总体呈现出扩大的趋势,金
UL是英文保险商试验所(Underwriter Laboratories Inc.)的简写。UL安全试验所是美国最有权威的,也是世界上从事安全试验和鉴定的较大的民间机构。它是一个独立的、非营利的、为公
期刊
本论文从钢琴即兴伴奏的角度出发,深入分析并探讨当前钢琴教学的近况与研究现状,揭示了钢琴即兴伴奏的内涵与特点,运用的理性思维方法和情感投入方法,进而深刻地表达出钢琴即
对要求黑启动的发电厂,一般采用柴油发电机作为启动电源。为满足启动负荷需求,有时需要两台柴油发电机并列运行。现以国外某新建发电厂为背景,分析发电厂并列运行的黑启动柴
利用微波在线检测装置将微波间歇干燥技术用于苹果片薄层干燥试验,研究了苹果片在700、600、450、250W功率,切片厚度为3、5、7、9mm,单次微波加热时间4、5、6、7s下的干燥动