带估计的分割点采样的并行决策树

被引量 : 0次 | 上传用户:lj445566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树方法是归纳学习的一个重要分支,本质上是从训练数据集中归纳出一组分类规则。因为决策树具有很高的效率和预测精度、很好的可读性,以及对噪声数据的健壮性等优点,成为应用最为广泛的分类模型之一。近年来,随着信息技术和网络技术的发展,计算机应用的普及,产生的数据量日益增长,对大规模数据集的分类已成为机器学习和数据挖掘中的一个重要领域。由于决策树分类模型的准确率直接依赖于训练数据集的大小,现有的决策树算法在处理海量数据时因为数据存储、内存瓶颈、时间复杂度过高等因素,使其很难得到推广,此外,在处理连续型属性时效率太低。因此,进一步改进决策树,提高决策树的性能,使其更加适应数据挖掘技术的发展要求,具有重要的理论和实践意义。针对现有的决策树分类算法的不足,本文基于分割点采样方法对决策树分类算法的并行化进行了研究,提出了适用于处理大规模数据集的带估计的分割点采样的并行决策树分类算法MRSPDT。具体工作包括以下几个方面的内容:1.为提高现有决策树算法处理连续属性的准确率和效率,本文采用带估计的采样分割点的方法,显著地减少了寻找最佳分割点的计算代价。2.提出了一种带估计的分割点采样的并行决策树算法MRSPDT,并且通过理论分析给出了MRSPDT的误差上界,最后在Hadoop平台下实现了该算法。3.设计标准数据集上的实验,实验验证了算法的高效性和可扩展性。
其他文献
1984年创建于美国的戴尔计算机公司,以特有的“为客户量身定制计算机系统然后将定制好的产品不经过任何中间环节直接交付给用户”的方式进行生产及销售,正是由于这种直接销售模
在新经济形势影响下,中国的文化正处于大发展大繁荣时期,红色雕塑作为红色文化的重要组成部分越来越受到人民群众的关注,作为一种公共景观艺术类型与市民的生活越来越息息相关。
现阶段,我国正在推进新型城镇化建设,都市农业能为市民提供安全可靠的食品,提升环境质量,提高农民收入,改善城乡关系,促进城乡一体化,是推进新型城镇化建设的新途径。本文在城乡一体
“利益集团”研究是政治学、行政学、经济学、社会学等学科都高度重视的一个领域与主题,具有学科交叉与前沿性的特点。本文首先界定了“利益”、“集团”以及“利益集团”的概
基于第一原理计算,本论文系统地研究了掺杂、应变和界面效应对石墨烯及其衍生物的功能调制以及这些效应所诱导的新奇的量子现象。控制电荷载流子类型和浓度是发展石墨烯电子学
居住形态是指社会系统作用于以居民认知为主体的居住场所所表现的物质和非物质形态的综合性系统总和,其主要包含居住空间形态和居住生活形态两大方面的内容。本文试图从居住形
随着社会的不断发展,先天性的精神病患者也在不断减少,可是,随着社会的不断进步,人们的需求也在不断的上升,生活节奏的不断加快、竞争的不断加剧以及更加复杂的社会关系等因
依区域经贸协定设立的组织或集团是现今全球经济繁荣的推动力量,其也是经济贸易自由化快速发展的主要途径。区域经贸协定是WTO体制规则制定的试验田,但区域经贸协定较高的自
随着我国经济的飞速发展,城市规模也在不断的变化。隧道设计理论考虑的因素也会越来越多,关于隧道规划设计的难度也会越来越大。在城市地区,隧道工程下穿既有建构筑物的情况不胜
项目管理过程中,最重要的就是进度管理,而一个项目进度管理的水平,决定了项目能否按时交付使用,同时,加强项目进度管理,也是提高项目运行效率、节约成本、减少建设工期的最有