基于Hadoop的共享决策树挖掘算法研究

被引量 : 0次 | 上传用户:leinuo2222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物。目前,已经有学者对共享知识挖掘进行了研究,并提出了共享挖掘算法。但是现有的共享挖掘算法都是串行的挖掘算法,只能处理小规模的数据集,已经无法满足数据急剧增长的需求。为此,本文主要针对共享知识挖掘算法的并行化做了一系列的研究,主要工作和贡献包括以下几点:(1)针对大数据集中共享知识串行挖掘算法效率低下的问题,通过引入云计算技术和决策树挖掘算法的并行思想,提出一种基于hadoop的并行共享决策树挖掘算法(PSDT),该算法基于MapReduce并行模型,采用传统的属性表结构实现共享决策树挖掘过程中的属性并行性和节点并行性;同时,利用MapReduce模型独特的排序机制实现了预排序属性表的并行处理。实验结果表明,相比串行的共享决策树挖掘算法(SDT),并行的PSDT算法能够处理更大规模的数据,具有良好的可扩展性;在处理较大规模的数据集时,PSDT算法的运行效率明显高于SDT算法。(2)针对Hadoop集群的性能瓶颈——I/O,从减少I/O的角度出发,采用“CPU换I/O”策略,提出了一种新颖的混合数据结构。基于混合数据结构的并行共享决策树挖掘算法(HPSDT),在计算分裂指标阶段使用属性表结构进行并行计算,在分裂阶段采用数据记录结构进行分裂。相比传统的属性表结构,混合数据结构既减少了数据冗余又简化了分裂过程,大大减少了I/O操作。数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是PSDT的0.34左右。实验结果表明,HPSDT具有良好的并行性和扩展性。(3)在分析比较HPSDT挖掘算法和PSDT挖掘算法时间性能的基础上,进行试验验证。实验结果表明,对于同一数据集,HPSDT挖掘算法的时间性能要优于PSDT挖掘算法。在数据集的大小为917M时,PSDT与HPSDT的运行时间比率即达到了2.45,并且随着数据集的增大,HPSDT的优越性愈加明显。
其他文献
<正>图案艺术是人类最早的艺术创造活动的重要组成部分,是人类在长期生产劳动中对客观事物的认识与审美观念的反映。中国仰韶时期的半坡彩陶中出现的鱼纹图案,即是我国最早的
公园中的游步道是游人亲近自然的通道,而植物是营造自然环境最好的元素。植物配置是游步道设计中尤为重要的一环,它可是提升游步道的总体效果、修饰游步道的不足,但是在专业
随着网络技术的发展,电子商务交易市场在我国得到了迅猛的发展,网店销售的方式成为了商品销售的重要渠道。网店经营者在利益的驱使下,开始实施网店商标侵权行为,不正当的攫取商标
人物纪念馆表达了人们对伟人的尊崇,近年来此类建筑获得了较快发展,在数量上达到相当规模。数量不代表质量。笔者在学习过程中了解到,有些建筑师过度追求某种表面上的风格或专注
随着信息技术的不断发展,电子政务系统越来越成熟,适用范围越来越广。传统的具有保密需求的单位和部门也在积极探索安全保密条件下的信息化建设和信息共享机制。因此如何能够保
在人体的各大关节中,膝关节是最大与最重要的关节之一,膝关节的功能直接影响到整个机体的健康状况,膝关节的病变尤其是膝关节的严重的退行性变,将降低患者的生活质量。随着我
电力系统安全可靠的运行是保证经济快速发展、人民健康稳定生活的重要前提。如果要保证电力系统安全高效的运行,首先要保证供电电压的安全性和可靠性。本文介绍的电压在线监
由于我国环境污染的加剧,近年来各大城市不断出现沙尘暴和雾霾等天气,极大地威胁着人们的健康。人们对空气质量要求的不断提高,一系列严格的环保法规的颁布与实施,使空气过滤
文章借用雅克布森提出的“标准传播理论”试图分析观看在当下这个图像爆炸的时代所生产的变化。论述主要从绘画、摄影、动态影像三方面进行。文章中讨论了当各种图像唾手可得
目的:探讨肛周湿疹的综合治疗。方法:中医辨证治疗结合中药坐浴和合理运用抗过敏药物治疗,同时注意肛周疾病的手术治疗。结果:117例中治愈98例,好转16例,未愈3例。结论:采用肛周湿疹