论文部分内容阅读
在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用。决策树分类方法作为分类知识发现的一种非常重要方法,它具有良好的可解释性、分类速度快、分类性能优越,因此,研究决策树分类器算法逐渐成为一个活跃的研究领域。最为典型的决策树分类器学习算法是ID3算法,它采用自顶向下分而治之的策略,利用信息增益的标准选择分裂属性,能保证构造出一棵简单的树。但是它只能处理枚举型属性,不能解决过适应问题。C4.5算法很好地扩展了ID3算法,它将分类领域从枚举型属性扩展到连续值属性,同时采用剪枝策略很好地解决了过适应问题。目前它已成为现在公认的性能较优的决策树分类器算法。在实际应用中,我们所构建的决策树通常是基于大型数据库中的海量数据,如何将决策树的构建与数据库技术充分结合起来仍是一个值得研究的问题,为此,很多以前提出的算法被重新研究和拓展。本文研究了决策树构造与数据库技术紧密结合的可扩展的分类算法。利用SQL语言实现数据预处理和属性度量计算,在关系数据库中实现决策树存储表示。本文还提出了决策树构造所需的训练集通过数据库中的视图来定义,并且对于划分训练集所形成的子集,依然是通过嵌套视图的方法定义;在构造树的过程中,通过数据库系统的SQL语言实现主要的计算任务。基于视图的分类算法充分利用了现有大型数据库的强大处理能力,并且易于实现。本文的最后通过以KDD CUP 2004的比赛数据为试验对象,将数据加载到关系数据库中,通过SQL语言实现了数据的预处理、决策树的构造和存储,验证了利用大型数据库本身的处理能力构造决策树的可行性和有效性。