Hadoop环境下基于BoF模型的图像分类方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:chyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前我们正处在一个数据爆炸式增长的大数据时代,在大数据中,主要以半结构化和非结构化的数据为主,例如文本、图像和视频等。同时,挖掘分析这些多媒体资源也成为人们收集信息的重要途径,而对于图像数据的挖掘,图像分类是一个基本且重要的问题。近年来 BoF图像表示模型在图像分类领域得到了广泛的应用与研究,也取得了较好的性能。但是大多数的研究关注的是中等规模的图像数据集,这些数据集是能够放入单台计算内存的。显然面对当下大规模的图像数据,这些单机的处理算法是不合适的。在海量文本数据分析领域,Hadoop作为一个优秀的分布式处理平台得到了广泛应用。对于大规模的图像分类应用而言,如果能够结合Hadoop以及BoF图像模型,将基于BoF模型的图像分类技术用于大规模数据集的图像分类将是很有意义和应用前景的。  本文首先研究分析了传统的BoF构建过程以及核心算法,包括图像特征的提取与表示、视觉词典的生成以及图像的BoF表示等算法。然后通过扩展Hadoop平台的支持数据类型,使得海量图像数据能够在Hadoop平台方便地表示、存储和处理。同时将Opencv开源计算机视觉库集成到Hadoop,使得在Hadoop平台能够方便地应用一些现有的计算机视觉算法。最后研究分析了 MapReduce框架下算法设计方法和模式,结合Opencv开源计算机视觉库,提出了BoF构建过程中的图像特征提取与表示的MapReduce算法。使用Mapper内合并MapReduce算法设计模式改进了用于视觉词典构建的现有PKMeans聚类算法,在减少Map和Reduce之间传输数据量的同时提高了算法速度。分析对比了在生成 BoF图像表示时的视觉单词的加权策略,提出了生成图像的BoF表示的MapReduce算法。在研究了分布式SVM训练方法的基础上,结合SMO支持向量机训练算法,提出 Hadoop平台上的支持向量机训练的MapReduce算法。以上核心算法的实现可以处理更大规模的图像数据集。  搭建了实验平台,对比了 MapReduce算法和单机的算法之间的效率以及适用的数据集环境,同时也对比了 MapReduce算法之间的效率以及适用的数据集环境。实验结果表明,当数据集越来越大时,基于Hadoop使用BoF的图像分类技术效率更高,对分类精度影响很小,能够满足一般的图像分类需求。
其他文献
嵌入式实时数据库系统是指可在嵌入式设备上独立运行的一种实时数据库系统,既具有嵌入式系统的特点,又具有实时数据库系统的特点。相对于普通的实时事务来说,嵌入式实时数据库系
在现代高技术条件下的军事斗争中,通信卫星面临的最大威胁是敌方的人为干扰。国内外有关部门都在进行相关的干扰与抗干扰技术的研究。天线方向图调零是通信卫星抗干扰技术的重
Internet的普及,为电子商务的迅猛发展提供了有利条件,也给电子商务带来了安全性问题。面对网络中众多的黑客攻击和商业间谍,电子商务必须构筑强有力的安全屏障。综合应用加密技
PDF文档凭借其在表现与传输等方面的优势得到了愈来愈广泛的应用,成为互联网上各种文献存在的主要形式和检索技术需要处理的重要资源;因此,研究含有数学表达式成分的PDF文档的快
Microsoft公司的嵌入式操作系统Windows CE .NET是一个十分流行的嵌入式系统。它可以使用应用程序开发工具eVisual C++,强大的开发平台Platform Builder,它丰富模块化的组件
无线传感器网络是对分散数据进行采集、传输和处理的技术性网络,其内容包括了通信传输、信息采集、数据处理、安全防御和能量资源等等,其涵盖范围几乎涉及工业技术领域的各个
随着电子商务系统越来越复杂、功能越来越强、与系统业务的集成度越来越高,开发人员迫切需要借助复用程度高的框架来快速高效地开发电子商务系统。同时,大部分电子商务系统都没
电子商务随着Internet的热潮逐渐流行起来,成为了商业的新模式。电子商务系统在运行的过程中积累了大量的数据,这对数据挖掘产生了需求。对供应商来说,这些数据是十分宝贵的决策
随着会话初始化协议(SIP)逐渐成为下一代网络的核心信令控制协议,基于SIP协议的服务器和终端产品也大量涌现。对这些SIP产品的性能评测自然成为目前亟待解决的问题。本文探讨
本文对关联规则挖掘算法优化和概念格粗糙集理论进行了研究。文章认为,粗糙集理论在数据分析中有着独特的作用。对于一些不完整的数据库(有些数据不能完全确定),可以借用粗糙集