基于Hadoop的决策树分类算法的并行化研究

被引量 : 11次 | 上传用户：pp1010pingban

【摘要】

：

随着计算机和网络技术的迅速发展,数据呈爆炸式增长。大数据的有效存储和处理成为各大企业当前面临的最艰巨的任务之一。如何高效、低成本的从海量数据中挖掘出潜在、有用的

【作者】

：

李力

【发表日期】

：

2015年01期

【关键词】

：

云计算 Hadoop 数据挖掘 ID3 C4.5 CART

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和网络技术的迅速发展,数据呈爆炸式增长。大数据的有效存储和处理成为各大企业当前面临的最艰巨的任务之一。如何高效、低成本的从海量数据中挖掘出潜在、有用的信息是数据挖掘技术当前面临的一大难题。在数据挖掘算法中决策树分类算法占有重要地位,决策树分类算法被视为是一种重要的分类和预测手段。但传统的决策树分类算法为内存驻留算法,在单机环境下,由于内存的限制,只能处理小规模的数据;其次,决策树分类算法最耗时的阶段为分割指标的计算阶段;再者,决策树的生成过程是一个递归过程,时间复杂度高。因此本文旨在解决传统决策树算法不能处理大规模数据的问题,以及如何高效的处理大规模数据的问题。近来,云计算的出现,为数据挖掘技术的进一步发展带来了新的前景。因为云计算不仅具有海量存储的能力,而且还提供并行处理的能力;其次,云计算系统可以构建在普通的、廉价的PC机上,代替高性能计算机,大大降低了成本。因此,云计算的出现,使数据挖掘技术进入了云挖掘的时代。Hadoop是Apache基金会开发的一个分布式系统基础框架,其中,HDFS分布式存储文件系统和Map Reduce分布式计算框架是Hadoop最重要的设计。其次,Hadoop使得用户在进行分布式程序开发的时候可以不用了解分布式的底层细节,并提供了一种高效、低成本、可扩展的计算模式。本文通过分析算法本身的特点,结合Map Reduce编程模式,将决策树分类算法移植到Hadoop平台上,从而实现了高效、低成本的数据挖掘工作。本文的主要工作如下:(1)针对传统的ID3决策树分类算法不能处理大规模数据的问题,通过引入云计算的并行化思想,提出了一种基于Hadoop平台的并行决策树分类算法H_ID3H_ID3算法利用Map Reduce编程模型,实现了数据集纵向划分的并行化、横向划分的并行化以及决策树同一层所有节点最佳分裂属性选择的并行化。通过算法的实现及相关实验,验证了算法的可行性,其次还可以得到如下结论:H_ID3算法能够处理大规模的数据集,且具有良好的可扩展性和高加速比;其次,在处理的数据集规模较大时,H_ID3算法的效率明显高于ID3算法。(第3章)(2)针对传统C4.5决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_C4.5H_C4.5算法和H_ID3算法的并行化思想大致相同,只是最佳分裂属性的选择标准不同。同样,通过算法的实现及相关实验,验证了算法的可行性,以及H_C4.5算法具有的高效性、高扩展性和高加速比。(第4章)(3)针对传统CART决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_CARTH_CART算法利用Map Reduce模型,实现了对数据集的并行划分,以及利用Map Reduce本身具有的排序功能,实现对连续属性值的并行化排序;其次,同样也实现了决策树同一层所有节点最佳分裂属性的并行化计算,大大提高了算法效率。通过算法的实现和相关实验,验证了算法的可行性和H_CART算法具有的高效性、高可扩展性和高加速比。(第5章)

其他文献

物联网技术在消防应急领域的应用前景分析

近年来,物联网技术受到了越来越多的关注,其应用更是成为关注的焦点。本文简要介绍了物联网技术的概念和层次架构,分析了物联网技术在消防应急领域应用的可行性,并从灭火救援

期刊

物联网消防灭火救援消防安全管理装备管理

刑事诉讼中亲属作证特免权探析

近年来,随着生产力的发展我国社会利益更加复杂化,同时也使社会关系和思想观念更加多样多元,这就需要构建更加完善的制度以回应社会的变迁维护社会生活的和谐稳定,构建亲属作

学位

亲属作证特免权立法现状价值构建

小学语文的课堂评价

语文教学在小学阶段的学习中起着至关重要的作用,但对于如何提高语文的教学质量,提高学生的学习成绩这一问题,一直困扰着众多教育工作者,他们一直致力于在课堂中探索,而教学

期刊

小学语文课堂评价教师

供应链上中小企业融资决策研究

随着经济的快速发展,在日益动态的商业运作环境中,众多企业特别是中小企业大都面临着资金短缺问题。但是,很多企业由于自身规模、资产和信用等原因,很难获得融资机会。而供应

学位

资金约束回购贷款额度延期支付随机需求

产业集群与城市化发展的实证研究——以浙江义乌、江苏昆山为例

我国产业集群的形成主要有两种方式:一是市场创造模式,即传统的产业集群;另一种是政府引导模式。本文以义乌和昆山为例,对产业集群与城市化发展进行了实证研究,结论是城市化

期刊

产业集群城市化实证研究

基于ANSYS Workbench的液晶电视包装件跌落冲击数值模拟

本文以液晶电视包装件为研究对象,利用计算机仿真技术高效、便捷、低成本的优点,配合传统物理试验准确度和可靠性高的特点,研究了泡沫结构对其缓冲性能的影响。借助有限元软

学位

跌落试验跌落模拟缓冲包装泡沫结构

从战时共产主义政策向新经济政策过渡——介绍《列宁全集》中文第二版第40卷

<正> 一即将出版的《列宁全集》(第二版)第40卷,收载了列宁从国内战争结束到俄共第十二次代表大会召开前夕(1920年11月—1921年3月)的著作,相当于中文第一版第31卷末至第32卷

期刊

托洛茨基俄共(布)第三国际布哈林租让制战时共产主义政策《列宁全集》新经济政策第二版

基于分形理论的混凝控制研究

依据分形理论,针对混凝过程中原水水质、水量的变化,考察了絮凝体分形维数与混凝剂投量和沉后水浊度间的变化关系.结果证实,分形维数的变化能够很好地反映絮凝程度及混凝处理

期刊

给水处理絮凝体混凝控制图像分析分形维数

真有“拉美10年”吗?

<正>由于TPP协议并不包括中国,拉美国家在加入该协议的同时,如无法排除"与美国联手对抗中国"之质疑,将为"拉美10年"前景投下更大变量。最近多位国际知名人士不约而同提到全球

期刊

佩雷斯危地马拉中美洲国家第二轮查韦斯内政部长

面向应用型本科层次的中级财务会计课程案例教学法研究

中级财务会计是会计专业中与会计实务联系最紧密的课程,也是实践性较强的一门课程。案例教学法是一种具有启发性和实践性的新型教学方法,文章结合中级财务会计课程的特点,分

期刊

应用型本科层次中级财务会计案例教学法

基于Hadoop的决策树分类算法的并行化研究

与本文相关的学术论文