基于Hadoop的海量图像检索关键技术研究

被引量 : 0次 | 上传用户:della12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对海量图像检索的问题,采用分布式计算解决海量图像检索系统的两个关键技术:索引建立和索引搜索,达到减少图像处理时间的目的,主要完成了以下几项工作:(1)在高性能计算平台上搭建Hadoop集群环境,安装相关的软件,并通过KNN算法对集群的计算性能进行了测试,测试结果充分体现Hadoop集群处理大数据的能力。(2)本文采用倒排索引对图像文件建立特征库。主要选择颜色直方图、颜色布局、Tamura纹理和边缘直方图4种图像特征作为图像文件的视觉单词。在进行分布式处理之前,先采用单机环境进行了测试,采用Lucene框架对10万幅图像进行索引建立。索引建立后用多幅查询图像进行了查询实验,其中多特征综合查询方式的平均查全率和平均查准率较为满意,并且五种查询方式的平均查询时间只需几秒。查询结果表明倒排索引方式适合海量图像检索,检索过程既方便又快速。(3)设计了分布式索引系统。系统的输入文件是1个序列化文件,因此先将海量图像序列化。集群中主控制器根据文件输入格式对输入文件进行分片,并为每一个分片分配一个map任务,交由计算节点处理,各个计算节点根据片段读取方式逐次调用本地的部分图像集进行处理,从而达到并行处理的目的。本文在一个由16个节点构成的系统中进行了索引测试,并与单机处理进行了时间对比,实验结果表明当图像数量在5000幅以下时,分布式环境并没有体现其优势,甚至还不如单机处理。但是随着图像数量的增加,分布式计算远远优于单机计算。(4)设计了分布式搜索系统。系统对索引库分段,每个计算节点搜索部分索引库,最后将各个节点的搜索结果汇总起来进行重新排序后输出。实验中先在不同规模的集群下对1000万幅图像索引库和1亿幅图像索引库进行检索测试。测试结果体现出Hadoop平台对海量图像索引文件的检索能力。然后分别在单机条件和分布式环境下对10万、100万、1000万、5000万和10000万幅图像索引库进行查询实验,实验表明当图像数目在100万以下时分布式计算并没有体现其优势,但是当图像数目不断增多时,分布式检索远远优于单机检索。
其他文献
当今社会,自然资源损耗和环境退化已成为热点问题,伴随着环境保护意识的提高,企业内部正在使用环境保护策略和环境管理系统来评估其日常生产活动对资源和环境的影响。产品生
舌鳞状细胞癌(tongue squamous cell carcinomas)是口腔颌面部最常见的恶性肿瘤,恶性程度高,生长快,浸润性强,目前主要采取扩大根治性手术治疗和辅助放射治疗,但治疗效果欠佳
背景:心血管疾病是危害人类健康的一种常见疾病。血管平滑肌细胞(vascular smooth muscle cell,VSMC)作为血管壁中层的重要的细胞组成部分,其分化、增殖、迁移和自噬在心血管疾病
随着经济社会的快速进步和科学技术的蓬勃发展,计算机数字图像处理与分析技术得到了迅速提升,并在力学工程中得到了广泛应用。我国基础设施建设事业突飞猛进,保障工程建设项
海上货物运输是世界贸易的重要运输方式,海运的发展对社会经济发展进步具有重大意义,因而对世界海运开展研究显得十分必要。世界海运是一个复杂的系统,不仅和船公司、港口相
初次就业问题在近年来被人们所高度关注,日益增大的初次就业压力不但让初次就业者感到压力倍增,而且产生了劳动力流动不均衡的现象,这种形势为政府部门对就业市场的调控出了一个
在政府组织体系构建的历史长河中,街道办事处一直作为区政府的派出机构,对上承接着区政府在街道各项工作的延伸,中间要负责与各职能部门派出机构的协调,对下负责街道居民的指
21世纪是海洋经济大发展的世纪,海洋运输则是推动海洋经济发展的重要动力。而活跃于世界各地的海盗则是世界经济发展的-个不和谐因素,阻碍着海洋经济的正常发展。目前海盗活
本文将目的论作为理论基础,通过对外交不同场合进行探讨,分析对比十年前后外交场合重要讲话口译语料,并对其进行差异分析,进而提出遵循目的论三大原则的口译策略。外交场合重
研学旅行,被称为孩子们的诗与远方。青少年通过一次轻松的研学之旅,可以收获书本外的知识,实施一次实验与理论的结合,获得自我提升。文章以陈嘉庚纪念馆为例,探讨以地方博物