基于局部敏感哈希的大规模相似图像检索技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:frankcomet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网上图片数量的爆炸式增长,图像检索相关技术及web应用层出不穷、不断涌现。相似图像检索技术,能够根据用户输入的图像,在图像库中检索出与之相似的图像。作为最热门的web应用之一,该类技术在搜索引擎、电子商务、社交网络和生物医疗等众多领域得到了广泛应用,并成为了多媒体信息检索领域中的一个研究热点。相似图像检索的核心问题包括图像特征提取、图像特征匹配以及海量图像存储带来的挑战。本文针对海量图像上的相似图像检索优化技术进行了研究,并取得了如下研究成果:1)相似图像检索技术面临的挑战之一是如何快速地在海量图像中查询出符合要求的图像。图像特征匹配问题实际上是相似性搜索问题,其中最著名的解决方案是局部敏感哈希(LSH,Locality Sensitive Hashing)方法。LSH能够在只牺牲一部分搜索精度的条件下大幅提升查询效率。但是目前大多数LSH方法还局限于单机环境,难以用来处理大规模数据。针对这一问题,本文设计实现了基于大数据平台Spark的分布式LSH算法,命名为Spark-LSH,实现了对海量数据建立索引和查询。为提升Spark-LSH的性能,在Spark-LSH基础之上,本文提出了Efficient SparkLSH,包括shuffle高效型索引模式和位置感知型查询模式,并在具体实现中进行了一系列优化,得到了Efficient Spark-LSH。实验表明,Efficient Spark-LSH比SparkLSH减少了30%的shuffle量,提升性能超过Spark-LSH 100倍。2)海量大数据图像检索系统中的存储模块直接影响系统的稳定性和检索性能。本文针对海量图像存储提出了基于HBase的存储方案,并通过理论分析和实验测试对比了HBase和HDFS作为存储方案的可行性。针对数据访问频次分布不均的应用场景,本文提出了基于数据访问频次的HBase负载均衡优化方案,包括新的regionServer选择算法和数据迁移算法。仿真实验表明,与HBase默认负载均衡算法相比,基于数据访问频次的负载均衡优化算法可以将各regionServer间数据访问频次的最大差异降低91.4%。3)结合本文提出的分布式LSH算法和基于HBase的海量图像存储方案,本文设计并实现了一个高度模块化的大规模相似图像检索系统。系统包括web模块、图像特征提取模块、图像特征匹配模块、中间件模块和存储模块,每个模块都使用了当前业界最成熟的解决方案或者最前沿的技术手段。真实应用环境下的测试表明,本系统可以满足所有测试场景下的性能需求。
其他文献
生物质作为储量丰富的可再生资源,因应用于能源、医药和化工等领域而受到广泛关注。将生物质中所富含的碳水化合物通过多种途径转化成为平台化合物及高附加值生物质基化学品
捕食线虫真菌少孢节丛孢(Arthrobotrys oligospora)产生一类特有的可以调控菌丝形态的信号小分子-少孢素类化合物(Arthrosporols)。本课题组前期通过单基因敲除方法,鉴定了位于AOL_s00215g基因簇上参与少孢素类化合物生物合成的9个关键基因283-276和基因274,但对其中的274、280、276、277、278这五个基因的生物合成功能仍未完全解析,本论文通过构
脉冲多普勒雷达是一种基于多普勒效应来检测目标的全相参体制雷达,能够完成对雷达回波脉冲串频谱单根谱线的多普勒滤波,在强杂波背景下具有优越的检测能力,因此已被普遍应用于国防、航空、航海、气象、遥感等众多领域。本文首先介绍了脉冲多普勒雷达的基本原理、信号处理关键算法,根据数字正交采样系统原理确定了具体的数字采样方案,并结合“X波段船舶导航雷达信号处理板”硬件平台,利用FPGA完成了回波采样、数字下变频与
目的:通过随机对照的临床试验,探讨超微针刀结合特定电磁谱(Teding Dianci Pu,TDP)照射疗法治疗椎动脉型颈椎病(cervical spondylosis of vertebral artery type,CSA)的临床
煤炭作为陕西省基础能源的地位难以动摇,作为最重要的生产要素,其价格上涨对陕西省各经济部门运行有着重要影响。基于陕西省2012年投入产出表,利用相关数据进行投入产出分析,
多电平逆变器是中高压变频系统中的核心部分,具有输出电压高、能量转化效率高、电磁干扰少等优点,但是随着对逆变器效率、波形质量等的要求越来越高,对减少其产生谐波的研究
本文依托国家重点研发计划课题《典型建筑工程邻近既有城市道/桥/隧的结构风险监测、安全控制关键技术及示范》,研究新建隧道下穿既有城市道路的力学机理及安全风险分区标准,主要完成了以下内容:(1)通过查阅相关文献,分别研究了单一隧道、单一城市道路、隧道近接既有城市道路这三种状态的力学机理及应力场分布规律;(2)采用强度折减法对隧道以及隧道下穿既有城市道路近接体系的稳定性进行分析,分析了常用的3种围岩失稳
禾本科(Poaceae)植物是世界上分布范围最广的单子叶植物,同时也是最具有经济价值的大科。禾本科作物不仅是人类粮食和牲畜饲料的主要来源,同时也是加工淀粉、制糖、酿酒、造
砂砾土具有压实性能好、填筑密度大、抗剪强度高、承载力高、变形小、透水性强等优点,在水利、电力、铁路、交通、工业和民用建筑等行业广泛应用。室内砂砾土试验采用的试样普遍为受扰动的砂砾土或重塑砂砾土,为研究砂砾土的物理力学性质,解决原状砂砾土取样存在的扰动率大、成功率低和运输中破损率高等问题,本文基于一种临时胶结材料探索一种适用于浅层、含水率较低的原状砂砾土取样方法。开展了薄荷醇材料自身的密度、比重、体
介绍模糊理论与PID控制相结合的智能模糊PID控制技术,分析模糊PID控制器的量化因子和比例因子对控制器性能的影响,由此指出常规模糊PID控制器在工业应用的局限性,并提出一种