基于Hadoop的决策树分类算法研究

被引量 : 0次 | 上传用户:lzxs123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网应用的种类和形态在不断地发生变化,同时也在不断地影响着人们生活的各个方面,而且互联网上产生的数据量也在以我们无法想象的速度迅猛增长。如今,海量数据集的存储与处理已经成为各个企业面临的一大挑战,也越来越受到各个企业的重视。他们不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息,以便在未来取得更大的成功。此时,对海量数据的处理能力已成为现代企业的核心竞争力之一。从大量的数据中挖掘出与企业相关的有价值信息,并加以分析和应用,转化为可理解的知识,帮助企业科学决策的数据挖掘技术成为新的研究热题。近几年来云计算的兴起,为数据挖掘技术的发展提供了重要的机遇,成为了解决这个问题的有效途径。它通过把大量的高度虚拟化的资源管理起来,组成一个大的资源池,将大量数据的存储与计算均匀分布在集群中,从而实现了强大的存储和计算能力[2]。同时,集群中的节点都可以是廉价的计算机,不必使用高昂的服务器,大大降低了成本。由于云计算技术的出现,数据挖掘技术步入了一个以云计算为基础的崭新时代。有许多数据挖掘技术,其中决策树分类算法作为一个经典的数据挖掘方法,它通过对大量数据的属性值进行分析,构造决策树,来发现数据中蕴涵的分类规则。它是一种很有效的分类方法,已经引起许多研究人员的重视。至今为止,人们已经提出了许多的决策树分类算法,各个算法的执行效率、扩展性能、结果的可理解性、分类结果的准确性等方面各有优势。然而,在数据增长大爆炸的时代,这些算法处理海量数据的性能总有些差强人意。云计算作为一个处理海量数据的良好途径,将算法布置在云计算平台中进行分布式计算是一个行之有效的方法。已有研究人员以各种方式将经典的ID3、C4.5、SPRINT等决策树算法并行化在云计算平台中运行,大大提升了算法的性能和处理海量数据的能力。Hadoop是一个开源的分布式计算云平台,它的两个重要机制是分布式文件系统HDFS和MapReduce,主要功能是为开发者提供一个分布式框架,可以方便的进行分布式应用程序开发。HDFS具有较高的容错性和很强的伸缩性特点,开发者只需要使用比较廉价的处理器就可以配置集群系统,此外,MapReduce分布式编程模型可以让开发者不需要很了解系统最底下的细节就可以进行分布式应用程序的开发。因此开发者完全可以利用Hadoop平台的超强的计算和存储的能力,来完成海量数据的处理。对于传统的数据挖掘算法,我们可以对其并行化,然后根据它们自身的特点,研究MapReduce编程框架,将这些算法部署到Hadoop平台上,最终高效的处理海量数据。本文通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法。同时深入研究了解云计算和开源云平台Hadoop的核心架构和运行机制,根据Hadoop的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程。最后,将此并行算法在Hadoop平台上实现,对输入的海量文本数据进行分类,验证算法的高效性和扩展性。
其他文献
在两次金融危机的背景下,中国在世界上国际地位的提高,必然引起人民币国际地位的提高,大力推进人民币国际化的进程中,由于人民币跨境流通方向和规模的结构性失衡,‘必然触及
21世纪以来,世界各国之间的经济文化交流异常频繁,经济一体化的趋势比以往任何阶段都要更加显著,越来越多的国家和企业以拓展更大的市场为发展目标,积极利用异国和异地的有利资源
电磁铆接技术是一种高能高速的新型铆接工艺,铆接质量明显优于传统铆接方式,能有效解决难成形材料、应变率敏感材料以及大直径铆钉的铆接工艺技术难题,同时具有铆接速度快、铆接
本文综合运用音乐学、考古学、历史学等学科的研究方法,在前人研究成果的基础上,对笔者迄今所能收集到的史前时期出土乐器资料及相关文献资料进行了梳理、解读与探究。笔者将史
随着我国经济科技的不断发展,我们已不再满足于成为世界工厂赚取微利润,国家的制度政策和企业本身导向都不断的提出自主创新,高新技术企业是以技术创新为主导,因此,如今高新技术企
<正> 斯里兰卡是印度洋上的一个热带岛国。在梵语中,它被称为“宝石岛”。就连岛的形状,也象是块未经加工的宝石。该岛盛产20多种宝石,有华丽鲜艳的红宝石、
期刊
笔者以全国第八、九、十届书法篆刻展中楷书部分作品,及当代被公认的一些书家的楷书作品为研究对象,对当代楷书的创作作出一些有益的思考,试图把握到当代楷书创作一些规律性的倾
近年来,世界造纸发展格局持续深刻转变,世界造纸工业发展重心持续向新兴经济体转移,中国已成为拉动世界造纸工业发展的主要力量。“十一五”期间中国造纸工业生产及消费快速增长
为实现被悬浮球体的旋转运动,本文提出一种集磁悬浮功能于一体的驱动装置,通过在驱动装置的驱动绕组中通入三相交流电,使其在气隙的周向产生旋转磁场,旋转磁场与被悬浮球体表面产
聚N-异丙基丙烯酰胺(PNIPAAm)水凝胶可感知外界温度的细微变化并产生体积相变,是生物组织领域一种理想的温敏材料。但PNIPAAm本身机械强度很差,其应用受到了很大的限制。通过接