带估计的分割点采样的并行决策树

被引量 : 0次 | 上传用户：lj445566

【摘要】

：

决策树方法是归纳学习的一个重要分支，本质上是从训练数据集中归纳出一组分类规则。因为决策树具有很高的效率和预测精度、很好的可读性，以及对噪声数据的健壮性等优点，成为应用

【作者】

：

杨远洋

【发表日期】

：

2014年期

【关键词】

：

分类决策树采样并行

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

决策树方法是归纳学习的一个重要分支，本质上是从训练数据集中归纳出一组分类规则。因为决策树具有很高的效率和预测精度、很好的可读性，以及对噪声数据的健壮性等优点，成为应用最为广泛的分类模型之一。近年来，随着信息技术和网络技术的发展，计算机应用的普及，产生的数据量日益增长，对大规模数据集的分类已成为机器学习和数据挖掘中的一个重要领域。由于决策树分类模型的准确率直接依赖于训练数据集的大小，现有的决策树算法在处理海量数据时因为数据存储、内存瓶颈、时间复杂度过高等因素，使其很难得到推广，此外，在处理连续型属性时效率太低。因此，进一步改进决策树，提高决策树的性能，使其更加适应数据挖掘技术的发展要求，具有重要的理论和实践意义。针对现有的决策树分类算法的不足，本文基于分割点采样方法对决策树分类算法的并行化进行了研究，提出了适用于处理大规模数据集的带估计的分割点采样的并行决策树分类算法MRSPDT。具体工作包括以下几个方面的内容：1.为提高现有决策树算法处理连续属性的准确率和效率，本文采用带估计的采样分割点的方法，显著地减少了寻找最佳分割点的计算代价。2.提出了一种带估计的分割点采样的并行决策树算法MRSPDT，并且通过理论分析给出了MRSPDT的误差上界，最后在Hadoop平台下实现了该算法。3.设计标准数据集上的实验，实验验证了算法的高效性和可扩展性。

其他文献

基于戴尔公司对IT企业营销模式的分析与研究

1984年创建于美国的戴尔计算机公司，以特有的“为客户量身定制计算机系统然后将定制好的产品不经过任何中间环节直接交付给用户”的方式进行生产及销售，正是由于这种直接销售模

学位

市场营销直销模式戴尔公司优化

中国红色景区雕塑创作的实践性研究

在新经济形势影响下，中国的文化正处于大发展大繁荣时期，红色雕塑作为红色文化的重要组成部分越来越受到人民群众的关注，作为一种公共景观艺术类型与市民的生活越来越息息相关。

学位

红色雕塑发展历程红色摇篮地域特色

面向城乡一体化的京津冀现代都市农业发展研究

现阶段，我国正在推进新型城镇化建设，都市农业能为市民提供安全可靠的食品，提升环境质量，提高农民收入，改善城乡关系，促进城乡一体化，是推进新型城镇化建设的新途径。本文在城乡一体

学位

京津冀都市农业城乡一体化主成分分析数据包络分析

利益集团的政治与经济影响研究

“利益集团”研究是政治学、行政学、经济学、社会学等学科都高度重视的一个领域与主题，具有学科交叉与前沿性的特点。本文首先界定了“利益”、“集团”以及“利益集团”的概

学位

利益集团权力政治冲突经济发展

石墨烯及其衍生物：掺杂、应变与界面效应的理论研究

基于第一原理计算，本论文系统地研究了掺杂、应变和界面效应对石墨烯及其衍生物的功能调制以及这些效应所诱导的新奇的量子现象。控制电荷载流子类型和浓度是发展石墨烯电子学

学位

石墨烯电子结构电声耦合拓扑绝缘体第一原理计算

上海城市更新中原住民搬迁前后居住形态对比研究

居住形态是指社会系统作用于以居民认知为主体的居住场所所表现的物质和非物质形态的综合性系统总和，其主要包含居住空间形态和居住生活形态两大方面的内容。本文试图从居住形

学位

里弄原住民拆迁安置居住空间形态居住生活形态

刑事强制医疗程序的缺陷与完善

随着社会的不断发展,先天性的精神病患者也在不断减少,可是,随着社会的不断进步,人们的需求也在不断的上升,生活节奏的不断加快、竞争的不断加剧以及更加复杂的社会关系等因

学位

精神病刑事诉讼强制医疗

区域经贸协定对WTO体制的影响

依区域经贸协定设立的组织或集团是现今全球经济繁荣的推动力量,其也是经济贸易自由化快速发展的主要途径。区域经贸协定是WTO体制规则制定的试验田,但区域经贸协定较高的自

学位

区域经贸协定WTO冲突平衡应对措施

重庆市轨道交通六号线江五区间隧道下穿桥台过程力学行为研究

随着我国经济的飞速发展，城市规模也在不断的变化。隧道设计理论考虑的因素也会越来越多，关于隧道规划设计的难度也会越来越大。在城市地区，隧道工程下穿既有建构筑物的情况不胜

学位

隧道桥台掘进进尺开挖方法有限元分析稳定性监控测量

A公司煤制氢装置工程项目进度控制研究

项目管理过程中,最重要的就是进度管理,而一个项目进度管理的水平,决定了项目能否按时交付使用,同时,加强项目进度管理,也是提高项目运行效率、节约成本、减少建设工期的最有

学位

进度控制措施项目进度管理进度控制计划

带估计的分割点采样的并行决策树

与本文相关的学术论文