基于MR的并行决策树分类算法的设计与实现

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:lengkuhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响。本文设计和实现一种基于MapReduce架构的并行决策树分类算法。实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能。
其他文献
分布于长江、红河和澜沧江水系的缺须墨头鱼在形态上存在一定的差异,为确认不同地理居群之间是否发生形态分化,将采自以上3个水系32个采集点的248尾标本按照所属水系,分为金
在面向企业应用的虚拟网络计算环境中,通常采用数据中心架构来组织分布于局域网的底层物理资源,通过虚拟网络技术将分布在不同宿主机上的虚拟机资源聚合起来,为了提供高效、
以吉富品系尼罗罗非鱼为亲本,采用巢式配对法进行同质随机配对,配对252个家系,繁育获得106个家系,成功率为42.06%;通过标准化培育,构建了86个吉富罗非鱼全同胞家系和10个半同
将会仙喀斯特湿地中心区划分成7个小区,于2009—2010年枯水期的早、中、晚期4次采集0.5 m深水样(每小区采样点10~15个),分析上覆水部分水化指标和磷酸酶特性。参考太湖水体富营
讨论了一类食饵种群被开发的两种群捕食系统,主要讨论了系统平衡点的行为以及系统的全局稳定性。用Pioncare切性曲线法及Dulac函数法得到了闭轨不存在的充分条件。用Hopf分支
目的总结血行播散性肺结核合并急性呼吸窘迫综合征(ARDS)的诊治经验。方法选择血行播散性肺结核合并ARDS患者30例,回顾性分析其临床资料,总结诊断及治疗方法。结果 30例血行播
边界部分开放条件下,利用改进的Nagel-Schreckenberg交通流模型,数值模拟了在不同参数下的交通流基本图,结果表明,与边界全开放条件下改进的Nagel-Schreckenberg模型的交通性
运用PIC多粒子模拟程序,采用延迟反馈控制法,研究了离子束在运行过程中粒子分布情况.通过分析比较,得到了对束晕进行有效控制后的粒子分布规律,为强流加速器的应用提供了有用的参
应用室内人工降温,以0.5°C/2 h的降温方法研究吉富罗非鱼的低温耐受能力,分析比较不同低温条件下吉富罗非鱼的昏迷情况和死亡情况,评价其低温耐受性。结果表明:在8、9、1
根据已报道的hsa(人血清白蛋白基因)启动子序列设计了一对引物,以猪的基因组DNA为模板,采用PCR扩增出一条256bpDNA片段,用PrimerPremier5.0和Promoter Scan Ⅱ软件进行分析。结果表