论文部分内容阅读
决策树方法是归纳学习的一个重要分支,本质上是从训练数据集中归纳出一组分类规则。因为决策树具有很高的效率和预测精度、很好的可读性,以及对噪声数据的健壮性等优点,成为应用最为广泛的分类模型之一。近年来,随着信息技术和网络技术的发展,计算机应用的普及,产生的数据量日益增长,对大规模数据集的分类已成为机器学习和数据挖掘中的一个重要领域。由于决策树分类模型的准确率直接依赖于训练数据集的大小,现有的决策树算法在处理海量数据时因为数据存储、内存瓶颈、时间复杂度过高等因素,使其很难得到推广,此外,在处理连续型属性时效率太低。因此,进一步改进决策树,提高决策树的性能,使其更加适应数据挖掘技术的发展要求,具有重要的理论和实践意义。针对现有的决策树分类算法的不足,本文基于分割点采样方法对决策树分类算法的并行化进行了研究,提出了适用于处理大规模数据集的带估计的分割点采样的并行决策树分类算法MRSPDT。具体工作包括以下几个方面的内容:1.为提高现有决策树算法处理连续属性的准确率和效率,本文采用带估计的采样分割点的方法,显著地减少了寻找最佳分割点的计算代价。2.提出了一种带估计的分割点采样的并行决策树算法MRSPDT,并且通过理论分析给出了MRSPDT的误差上界,最后在Hadoop平台下实现了该算法。3.设计标准数据集上的实验,实验验证了算法的高效性和可扩展性。