基于MapReduce的并行决策树分类算法研究与实现

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:sym409198933
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘和机器学习等领域中一个非常重要的研究课题,在众多领域中都得到了广泛的应用。当前已经提出的分类方法主要有贝叶斯分类、决策树、神经网络、支持向量机等,其中决策树方法以其构造速度快、生成模式简单、精度高等优点而广受欢迎。目前影响较大的决策树算法主要有ID3、SLIQ、SPRINT等。由于决策树分类模型精准程度直接依赖于训练数据集的大小,在处理海量数据时就会遇到时间复杂度过高的瓶颈,使其很难得到推广。因此,决策树分类算法的并行化开发就显得非常必要。本论文基于MapReduce并行编程模型对决策树分类算法的并行化进行了系统的研究。论文首先研究了各种串行决策树分类算法的主要思想,同时对现有的并行编程模型进行了全面的研究、分析和比较,发现MapReduce模型是一种适用于大规模数据并行计算的并行编程模型。在对决策树分类算法的并行性开发时,主要通过将训练数据集在各处理机上进行划分、并行地确定结点的最佳分裂属性以及并行地分割属性列表到各个子结点来实现。论文分别研究了三种MapReduce实现架构下并行决策树分类算法的设计,并在Phoenix共享内存架构上对SPRINT算法进行了具体的并行实现。通过实验分析和比较,结果表明本文研究的方法和实现不仅比基于MPI并行编程模型的同类决策树算法的实现编程更容易,而且在计算节点较多的情况下能得到更优的性能,获得更大加速比。
其他文献
随着信息、多媒体及数字化技术的迅猛发展,高维数据时代随之到来,并已成为描述客观世界的一个有力工具,如基因的表达、视频追踪、医学图像处理、高维时间序列分析等,与此同时
随着经济和科学技术的发展,人类社会进入了一个快速发展的新时期。交通工具的增长速度倍增于道路和其他交通设施的增长,所以随之引起的交通拥堵、环境污染、交通事故等一系列
由于科学研究向着更大规模、更高复杂度的方向发展,对高性能计算的需求越来越强烈。并行计算机系统是实现高性能计算的一种重要途径,但是随着系统规模的扩大,系统出现故障的
随着计算机、智能控制以及传感技术等学科的发展,移动机器人广泛应用于航天科技、排险救援等多个方面,正辅助或取代人类完成特定的工作任务。由于移动机器人工作环境的复杂性
安全协议的设计与验证是信息安全领域中非常重要的内容。形式化方法是安全协议验证的一个强有力的工具。借助自动化工具,应用形式化方法来分析安全协议,是当今重要的研究课题
近年来随着低成本低功耗微型传感器的大规模生产,无线传感器网络的实用价值和应用前景非常广阔。但传感器节点能量高度受限,且工作环境通常十分恶劣,更换电池可行性不高,因此
随着计算机图形学的研究越来越深入,虚拟现实技术也越来越成熟。相继出现的数字地球、数字城市等名词,普及了人们对图形学的认知,同时对虚拟现实的研究提出更高的要求。虚拟
科学技术的飞速发展、社会文明的进步使得信息处理以及交流对人们的日常生活越来越重要,人们对图像处理的要求不断的提高。图像分割是图像处理中最为关键的技术之一,它是图像
Internet已经日益成为应用程序开发的默认平台。随着开发人员对应用程序复杂性要求的日渐增加,可是Web应用程序对完成复杂应用方面却始终跟不上步伐。为了提高用户体验,出现
人脸识别技术在社会中的应用场景日益增多,人脸刷卡、人脸支付甚至是寻找失踪多年的儿童这种跨年龄段的识别技术都已经有所应用。目前,人脸识别技术已经是模式识别和计算机视