论文部分内容阅读
数据挖掘是信息处理领域的一项重要课题,它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。其中分类分析在商业等领域中的成功应用使它成为数据挖掘中最活跃、最成熟的研究方向。目前常用的分类方法有决策树、关联规则、贝叶斯网络、神经网络、粗糙集模型和统计模型等。而决策树方法以其速度快、精度高、生成的模式简单易懂以及容易转化成分类规则等优点,在数据挖掘领域被广泛地研究和应用。本文主要介绍如何利用训练数据集来构造决策树模型,以及如何解决决策树学习过程中的常见问题。论文从算法描述角度详细地阐述了ID3算法和其它改进算法的理论基础与学习过程,并结合近年来流行的数据仓库技术和数据挖掘问题,简要地讨论了决策树归纳的可扩展性。针对几种典型的决策树算法的优缺点,文中对它们进行了综合的分析与比较。但是通过学习训练数据来构造决策树的策略可能无法达到最好的泛化性能。随机噪声和某些决策仅取决于少量的训练数据,都会导致决策树的分类精度下降,并且过度拟合训练数据。过度拟合问题是决策树归纳学习中的一个实践难题,避免过度拟合主要是通过对树的剪枝来实现的,包括预剪枝和后剪枝。常用的后剪枝算法有五种,REP、PEP、MEP、CCP算法和后规则修剪方法。为了在决策树剪枝中选择正确的方法,本文主要从计算复杂性、误差估计和算法理论基础角度对它们进行阐述。另外,由于在决策树的构造过程中采用贪心算法,因而造成了决策树规模过大、产生的规则长度过长等缺点。为了减小决策树的规模,提高预测精度,文中总结了五种决策树优化方法。最后利用决策树工具包See5来分析决策树剪枝前后的各种问题,包括:决策树叶子结点的数目,修剪后的决策树在测试集或验证集上的分类错误率和预测精度。实验数据表明,剪枝后的决策树规模明显减小,而且能够提高它在测试集上的分类精度。如果训练数据较少,PEP算法表现出良好的预测精度,随着数据规模的增大,使用REP和CCP剪枝方法得到的决策树的分类性能和预测精度明显提高。