基于Hadoop的图像检索系统设计与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:maybeen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的不断普及,社交媒体的广泛应用,因特网上的媒体数据有了喷井式的增加,生成了海量的信息。所以在海量图像中,检索到用户所需的图像成为了一大难题。目前,图像检索已经成为研究热点。而传统的基于内容的传统的图像检索方法一般采用单一服务器,耗时较长,早已不能满足人们的发展需求。所以,研究方向开始转向分布式处理,因为分布式的处理能够快速地进行图像处理,减少图像处理计算耗费的大量时间。本文使用卷积神经网络模型,通过不断训练学习,提取出图像的特征向量,用于表征图像的细节内容,然后对特征向量使用局部敏感哈希算法,计算出向量对应的哈希码,然后根据不同哈希码之间的汉明距离,判断图像之间的相似距离,检索出候选的图像集合,为了进一步的提高检索的准确性,对候选图像集合的特征向量,而非哈希码,进行相似度度量,最后检索出查询图片邻近的图像。为了保证检索系统的检索效率和扩展性能,本文采用Hadoop云平台的并行计算能力,通过使用MapReduce并行化的计算编程框架,实现对图像检索算法的分布式运算,解决在单机环境下的运算限制。本文先在Hadoop上搭建的集群,针对集群中不同节点数量的实验环境,对本文设计的算法进行实验验证,对比Hadoop平台和单机环境的运行时间,分析图像检索算法的查准率和查全率。实验结果表明,采用本文设计的图像检索算法,检索计算出的查准率更高,而且采用Hadoop集群,根据用户需求,灵活的使用集群资源和节点数目,运行图像检索算法,本文设计的系统能够很好地进行扩展,而且,对于实验所用的数据集,相比于单机环境的运行,在Hadoop系统上运行的时间有了大大的缩短,而且随着采用的样本图像越多,Hadoop系统的分布式处理优势表现越明显,算法执行效率有了明显提高。随着执行运算的节点数目的增加,算法执行的时间有了进一步的缩短,表现了系统较好的扩展性。
其他文献
目的:研究载脂蛋白M(Apolipoprotein M,Apo M)对小鼠深静脉血栓发生和发展的影响。方法:应用碱基淬灭探针技术鉴定小鼠基因型,然后随机选取雄性小鼠共48只,载脂蛋白M基因野生型
隐写技术是一种信息隐藏技术,此技术可以将秘密信息嵌入到载体图像中,然后将载密图像在公开的信道中进行传送,目的是实现秘密信息发送者和接收者之间的安全通信。目前,隐写技
全球卫星导航系统(Global Navigation Satellite System,GNSS)是当代信息领域的热点之一。目前,许多国家和地区都在积极发展自己的卫星导航系统,因而兼容性成为研究中关注的
目的:探寻不同冠心病患者血清IL-33水平与CRP、冠脉病变程度的关系。方法:选择2015年5月~2015年12月期间(共计8个月)在苏州大学附属第三医院(常州市第一人民医院)心内科诊疗
电影文学剧本《寻》讲述了这样的故事:1948年,秦合和妻子宋晓梅分别,秦合带着养子秦忆珺去了台湾,怀孕的宋晓梅留在大陆。秦合在台湾生活多年,始终未婚,一直思念宋晓梅,想到
盐差能的开发是解决目前不可再生资源的不断减少和日益加剧的环境污染问题的一种有效途径,反电渗析(RED)法是能量效率最高的一种盐差能发电技术,此技术无污染、可持续发展。
非模式生物,包括辣椒属及其他茄科植物,WRKY转录因子家族成员的生物学功能及分子机制,仍然知之甚少。本研究报道了WRKY转录因子1族成员辣椒CaWRKY58功能的确定。结果显示CaWR
1966年,我21岁时才知道我的生父叫李健,是烈士;才知道我一岁时就跟着爸爸妈妈进了芦苇荡,两岁时爸爸牺牲在芦苇荡。父亲长得什么样子?他是个什么样的人?他是怎么牺牲的?我不
会议
随着我国遥感产业的快速发展以及对地观测卫星的不断升空,遥感影像数据的种类越来越多,分辨率也越来越高,各个行业、科研机构对遥感影像数据的需求越来越大。目前,在分布式遥
背景:急性心肌梗死(acute myocardial infarction,AMI)是全球发病率和死亡率最高的疾病之一。及时地恢复缺血心肌的血液灌注是治疗急性心肌梗死的首要治疗原则,但是在再灌注过