基于Hadoop的决策树分类算法的并行化研究

被引量 : 11次 | 上传用户:pp1010pingban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的迅速发展,数据呈爆炸式增长。大数据的有效存储和处理成为各大企业当前面临的最艰巨的任务之一。如何高效、低成本的从海量数据中挖掘出潜在、有用的信息是数据挖掘技术当前面临的一大难题。在数据挖掘算法中决策树分类算法占有重要地位,决策树分类算法被视为是一种重要的分类和预测手段。但传统的决策树分类算法为内存驻留算法,在单机环境下,由于内存的限制,只能处理小规模的数据;其次,决策树分类算法最耗时的阶段为分割指标的计算阶段;再者,决策树的生成过程是一个递归过程,时间复杂度高。因此本文旨在解决传统决策树算法不能处理大规模数据的问题,以及如何高效的处理大规模数据的问题。近来,云计算的出现,为数据挖掘技术的进一步发展带来了新的前景。因为云计算不仅具有海量存储的能力,而且还提供并行处理的能力;其次,云计算系统可以构建在普通的、廉价的PC机上,代替高性能计算机,大大降低了成本。因此,云计算的出现,使数据挖掘技术进入了云挖掘的时代。Hadoop是Apache基金会开发的一个分布式系统基础框架,其中,HDFS分布式存储文件系统和Map Reduce分布式计算框架是Hadoop最重要的设计。其次,Hadoop使得用户在进行分布式程序开发的时候可以不用了解分布式的底层细节,并提供了一种高效、低成本、可扩展的计算模式。本文通过分析算法本身的特点,结合Map Reduce编程模式,将决策树分类算法移植到Hadoop平台上,从而实现了高效、低成本的数据挖掘工作。本文的主要工作如下:(1)针对传统的ID3决策树分类算法不能处理大规模数据的问题,通过引入云计算的并行化思想,提出了一种基于Hadoop平台的并行决策树分类算法H_ID3H_ID3算法利用Map Reduce编程模型,实现了数据集纵向划分的并行化、横向划分的并行化以及决策树同一层所有节点最佳分裂属性选择的并行化。通过算法的实现及相关实验,验证了算法的可行性,其次还可以得到如下结论:H_ID3算法能够处理大规模的数据集,且具有良好的可扩展性和高加速比;其次,在处理的数据集规模较大时,H_ID3算法的效率明显高于ID3算法。(第3章)(2)针对传统C4.5决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_C4.5H_C4.5算法和H_ID3算法的并行化思想大致相同,只是最佳分裂属性的选择标准不同。同样,通过算法的实现及相关实验,验证了算法的可行性,以及H_C4.5算法具有的高效性、高扩展性和高加速比。(第4章)(3)针对传统CART决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_CARTH_CART算法利用Map Reduce模型,实现了对数据集的并行划分,以及利用Map Reduce本身具有的排序功能,实现对连续属性值的并行化排序;其次,同样也实现了决策树同一层所有节点最佳分裂属性的并行化计算,大大提高了算法效率。通过算法的实现和相关实验,验证了算法的可行性和H_CART算法具有的高效性、高可扩展性和高加速比。(第5章)
其他文献
近年来,物联网技术受到了越来越多的关注,其应用更是成为关注的焦点。本文简要介绍了物联网技术的概念和层次架构,分析了物联网技术在消防应急领域应用的可行性,并从灭火救援
近年来,随着生产力的发展我国社会利益更加复杂化,同时也使社会关系和思想观念更加多样多元,这就需要构建更加完善的制度以回应社会的变迁维护社会生活的和谐稳定,构建亲属作
语文教学在小学阶段的学习中起着至关重要的作用,但对于如何提高语文的教学质量,提高学生的学习成绩这一问题,一直困扰着众多教育工作者,他们一直致力于在课堂中探索,而教学
随着经济的快速发展,在日益动态的商业运作环境中,众多企业特别是中小企业大都面临着资金短缺问题。但是,很多企业由于自身规模、资产和信用等原因,很难获得融资机会。而供应
我国产业集群的形成主要有两种方式:一是市场创造模式,即传统的产业集群;另一种是政府引导模式。本文以义乌和昆山为例,对产业集群与城市化发展进行了实证研究,结论是城市化
本文以液晶电视包装件为研究对象,利用计算机仿真技术高效、便捷、低成本的优点,配合传统物理试验准确度和可靠性高的特点,研究了泡沫结构对其缓冲性能的影响。借助有限元软
<正> 一即将出版的《列宁全集》(第二版)第40卷,收载了列宁从国内战争结束到俄共第十二次代表大会召开前夕(1920年11月—1921年3月)的著作,相当于中文第一版第31卷末至第32卷
依据分形理论,针对混凝过程中原水水质、水量的变化,考察了絮凝体分形维数与混凝剂投量和沉后水浊度间的变化关系.结果证实,分形维数的变化能够很好地反映絮凝程度及混凝处理
<正>由于TPP协议并不包括中国,拉美国家在加入该协议的同时,如无法排除"与美国联手对抗中国"之质疑,将为"拉美10年"前景投下更大变量。最近多位国际知名人士不约而同提到全球
中级财务会计是会计专业中与会计实务联系最紧密的课程,也是实践性较强的一门课程。案例教学法是一种具有启发性和实践性的新型教学方法,文章结合中级财务会计课程的特点,分