改进K-Means聚类算法在基于Hadoop平台的图像检索系统中的研究与实现

被引量 : 0次 | 上传用户:nathon_zhwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代人们的生活已经进入了移动互联网时代,各种移动互联网设备的普及和广泛应用极大的方便了人们的生活学习等各个方面。与此同时,来自各行各业的大量信息正以多媒体信息的方式数字化并不断累积。其中图像作为最为基本的多媒体信息之一易于理解和使用,人们对图像检索的需求也从开始的根据文本描述来检索图像发展到根据图像内容来检索相似图像。图像检索早已成为计算机领域的一个研究热点,它可以按照检索内容划分为基于文本的图像检索和基于内容的图像检索。本文主要的内容是如何应用大数据技术进行基于内容的海量图像检索技术的研究和实现。从数据层面分析,一个基于内容的图像检索系统要解决大量图像数据的存储和快速处理两个最主要的问题,本文将使用专门用于大数据存储和处理的Hadoop技术来存储大量的图像数据并进行离线地分布式计算;从检索技术层面分析,要进行特征提取和处理,本文将提取图像的SIFT特征,然后对这些特征进行K-Means聚类,将聚类结果作为Bag-of-Words模型的视觉词袋对所有图像的SIFT特征点进行量化处理,从而用一个固定维数的特征向量表示每一幅图像,此外再用TF-IDF加权技术处理这些特征向量,最终计算这些图像与检索图像特征向量之间的相似度,返回相似度最小的一些图像。本文使用并修改HIPI-Hadoop图像处理接口实现在Hadoop上进行图像类型的存储处理和检索,提出了一种改进的并行K-Means算法并应用于特征点的聚类,使用一种基于面积的相似度计算方法计算图像特征向量间的相似度。改进了部分Mahout源码适应大数据的处理需求。图像检索应用广泛,对基于Hadoop的图像检索系统的研究将对大数据时代图像检索技术的发展起到一定的指导作用。
其他文献
目前我国煤炭企业发展速度较快,但是部分企业管理中仍然存在着一些问题。固定资产的有效管理,可以避免企业财产的流失,提高企业的工作效率,促进煤炭企业产业结构升级,建立现
耕地是土地资源中的精华,人们获取农产品的基础条件。结合我国人多地少的国情,以及城市化过程中不可避免占用耕地的状况,更加凸显了耕地保护研究的重要性。通过选取西部地区
随着高校规模的不断扩大,教学管理逐渐成为高校发展中亟待解决的难点。由于公共课不隶属于高校内其他学院,因此对于公共课的教学管理一直存在着无序、混乱等问题。为了进一步
油井出水是油田(特别是注水开发油田)开发过程中普遍存在的问题。调剖堵水技术一直是油田改善注水开发效果、实现油藏稳产的有效手段,但由于储层非均质性的存在,经过多轮次调
作为一种新兴的生态系统,电子商务生态系统在电子商务行业甚至国民经济的发展过程中起到了积极推动的作用。部分电子商务生态系统(如以新兴网络团购企业为核心的电子商务生态
虚拟仪器技术在仪器领域显示了强大的生命力。介绍了虚拟仪器领域中最具有代表性的图形化编程开发平台LabVIEW,并对LabVIEW驱动普通数据采集卡进行了研究。总结了调用Lab VIE
目的了解实习护生受临床护理教师的影响程度,为临床培养和选拔优秀教师提供依据,为科学管理临床教师提出建设性意见。方法应用自设问卷对196名实习护生进行调查。结果临床护
养殖水质恶化是诱导水产品疾病爆发甚至大批量死亡的首要因素,而养殖水质受多种因素影响,参数间作用机理复杂,导致水质精准预测预警一直是水产养殖业亟需解决的棘手难题。本
液相苯羟化制苯酚过程中,氧化剂H2O2的成本问题是制约苯羟基化制苯酚过程的关键因素。[Si,Ti]-MCM-41催化剂在苯羟化过程中,活性中心结构发生变化,一部分活性中心由骨架脱落,
食品本身是一个复杂的体系,而目前大多数的研究基于纯水体系中考察甜味的味感变化,因此,越来越多的研究关注水溶胶体系中甜味剂的甜味变化。目前,水溶胶对甜味剂甜味变化的影