适用于最近邻检索的堆叠哈希量化算法

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:czgtbhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,各种类型的信息数据呈爆炸型增长。传统信息处理技术正面对着前所未有的挑战。如何在海量高维数据中高效查找目标数据,是计算机领域的热门问题之一。近似最近邻检索是解决该问题的一种方案,它的主要思想是提出新的近似距离度量,检索在这种度量下和查询对象距离最近的数据对象。目前,许多近似最近邻算法陆续出现,且被应用于多个领域。乘积量化是解决此问题的有效方法之一,具有内存消耗低,查询效率高等优点。不过,乘积量化需建立量化中心的距离查询表,时间复杂度较高。针对此缺点有人提出了 k-means哈希量化,直接把向量数据量化为二进制码,且尽量保持数据的空间近邻结构。由于二进制码汉明距离的计算远远快于向量欧氏距离计算,此方法节省了存储空间和运行时间。然而它本质上是把一个高维超立方体放在原始空间内做迭代优化,若立方体维度较高,优化速度过慢,内存消耗也比较大。为此,本文提出了一种新的量化算法——堆叠哈希量化算法。若要提高二进制码对于原始数据的近似程度,不能仅依靠增大超立方体的维度,可以通过利用多层低维立方体对原始数据进行逐步逼近,本文称之为堆叠哈希量化。该算法的核心思想为:第一步,在训练数据集上,用乘积量化将高维训练集划分为多个低维训练集;第二步,对低维子空间进行k-means哈希训练产生相应码本;第三步,计算上一步之后的误差向量,将其作为新的训练数据进行码本训练,得到相应码本;重复第三步直至达到给定误差或规定码本层数。再利用分层码本集对数据库的数据进行编码,得到多层哈希码。在线查询阶段,首先利用分层码本集对查询向量进行编码,然后通过汉明距离对查询向量和数据库里的向量进行近邻匹配。本文在公开的SIFT1M数据集和论文构造的SIFT17数据集上设计了实验,与经典的量化方法相比,本文算法在召回率、精确率、MAP值等性能指标上具有优势。
其他文献
地方政府是执行公共政策的主体,关系到政策目标能否有效实现。在实际执行过程中,诸多因素的制约着公共政策执行,少数政府存在不同程度、不同形式的政策执行偏差,导致地方政府的行政效率和质量被拉低,严重影响了地方政府的公信力和执行力。本论文主要分析影响地方政府公共政策执行的因素,寻找推进公共政策有效执行的办法,对促进乡村振兴,推进新农村建设,推动文化、旅游与其他产业深度融合、创新发展具有重大的实践意义,同时
以遥感ET及实测降水数据为基础,借助GIS技术开展水分盈亏分析研究;同时依据项目区土地利用现状,选择冬小麦、夏玉米、棉花及人工草坪为重点分析对象,对其耗水及灌溉耗水规律进行
要建造一个高质量、高标准的建筑产品,除了好的建筑设计外施工质量是不可忽视的重点,若是把设计比喻成建筑产品的灵魂,哪么工程质量就是延续灵魂的保障。因此要将建筑施工质
《火力发电厂大气污染物排放标准》(GB13233—2003)要求“火力发电锅炉须预留烟气脱除氮氧化物装置空间”。根据一些工程预留脱除氮氧化物装置和一些改造工程装设脱除氮氧化物
2007年12月5日凌晨3时15分,世界上首台无燃油系统电站煤粉锅炉-内蒙古东胜电厂#1炉(330MW机组)点火成功,这标志着采用等离子点火及稳燃技术彻底取消电站煤粉锅炉燃油系统,实现单一
基于均质土壤的非充分供水入渗试验数据,通过回归分析的方法,分析讨论了Kostiakov二参数模型、三参数模型、Horton模型和Philip模型,对非充分供水条件下土壤控制阶段入渗过程的适用性。结果表明:Kostiak-ov二参数模型、三参数和Philip模型的显著性和相关性都较高;综合考虑Kostiakov三参数模型的显著性、相关性以及回归参数与实际入渗过程边界值的吻合性,认为用Kostiako
介绍了嘉兴发电厂二期工程#3、#4机组#6低加危急疏水管路的振动问题。通过多个角度对形成汽液两相流导致水击的原因深入地分析,提出了相应的处理措施并进行改造。试验效果证明
一、软件 1.*基于LINUX的互联网邮件服务器软件研发与产业 2.*网络游戏软件开发平台3.藏文信息化软件平台的研发及推广应用4.企业信息化软件
1973年在甘肃省天祝藏族自治县哈溪镇出土了我国第一件重达80公斤的牦牛青铜器。1990年这件牦牛青铜器被国家文物局鉴定为国宝级文物。本文以较翔实的历史资料和民族学资料为