基于Hadoop平台的随机森林算法研究及图像分类系统实现

被引量 : 0次 | 上传用户:liyan76669956
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体技术的不断发展,海量的图像资源和数据涌入互联网,它们深刻地影响着我们的日常生活,此时对于图像内容准确地理解显得尤为重要。图像分类技术融合了机器学习、人工智能等学科的先进思想和理论,旨在将原本无序分布的大批量的图像数据进行有序地归类,是解决图像理解问题的基础。随机森林算法建立在决策树模型基础之上,它是多棵决策树的组合,在分类场景中得到广泛应用。作为一种优秀的分类器模型,也为图像分类提供了新的思路。但当图像资源的数据量特别大时,分类将是一个十分耗时的过程。为了解决以上问题,本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率。首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架;接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法;随后,重点介绍随机森林算法,并在此基础之上,结合MapReduce计算框架,对随机森林模型构建过程进行双重并行化的改进,以提高随机森林算法的运行效率;然后,基于以上研究成果,本文构建了基于Hadoop平台的图像分类原型系统,包括Hadoop平台下处理图像接口的实现、基于DenseSift算法的特征采样过程、基于BoVW模型表示图像、构建图像的空间金字塔模型和利用改进后的随机森林算法进行分类器的训练共五个部分。最后,通过实验验证了基于Hadoop平台的图像并行化处理地有效性,同时证明并行化的随机森林算法相比较于单机版的随机森林,处理过程所消耗的时间大为缩短,并取得了不错的分类效果。基于Hadoop平台的图像并行化处理过程,大大提高了海量图像处理过程的速度,同时针对于图像分类,改进后的随机森林算法在效率上有了明显的提高。
其他文献
目的探讨非典型肝海绵状血管瘤(CHL)的MSCT表现及其病理学基础。方法回顾16例非典型CHL的CT表现,从病灶大小、平扫特点、动态增强特点等方面进行分析。结果 16例病例中位于肝
目的评价透明质酸钠结合盐酸氨基葡萄糖胶囊对踝关节骨性关节炎的临床疗效。方法踝关节的骨关节腔内注射透明质酸钠注射液结合口服盐酸氨基葡萄糖胶囊治疗86例踝关节骨性关节
目前中国的房地产市场越来越成熟,市场规范越来越优化,其中的竞争也愈来愈激烈了。在激烈的市场竞争和紧缩的货币政策、限购等政策下,房地产的政策红利基本消失。要想取得良好的
<正>1问题的提出笔者在近期编制的供我校高三学生练习的一份试卷中,选用了江苏省2009年高考物理试卷选择题第9题,为方便阅读,将题目抄录如下:题目如图1所示,两质量相等的物块
基于《国务院关于加快发展现代职业教育的决定》(国发〔2014〕19号)和全国人大常委会《职业教育法》执法检查有关要求,职校越来越受到社会各界的关注,会计专业教师首当其冲,
目的了解昆明市官渡区儿童青少年口腔卫生知识、行为及态度现状,以便今后采取针对性的口腔常见病、多发病的预防控制和口腔健康教育。方法采用多阶段抽样,抽取幼儿园3~5岁,小
目的:在前期SSMD研究基础上,开发MSPS量表,使其具有原来SSMD的筛查功能,兼有病种分类诊断功能。方法:调整SSMD调查表问卷补充20个条目,总共51条,另新编10条心因性负性事件筛查问卷。
重性抑郁障碍(Major Depressive Disorder,MDD)是一种危害性很大的精神疾病,具有高患病率、高自杀率、高复发率和高负担等特点,MDD的治疗与康复问题已成为全世界共同关注的焦
在我国资本市场日趋成熟,风险资本投资在资本市场所占的比重越来越多大等宏观背景下,本文主要是对风险投资退出机制进行实证研究,分析影响退出绩效的影响因素。虽然我国风险投资
自1978年,联合国《阿拉木图宣言》提出:每个国家都要实现“人人享有卫生保健”的目标之后,健康不平等成为各国普遍关注的问题。与此相应,学术界也展开一股健康不平等的研究热