论文部分内容阅读
数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。在这一过程中,对数据的分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,如决策树方法,关联规则、贝叶斯网络、遗传算法、神经网络、粗糙集方法等等。决策树分类方法以其算法的基础理论清晰、易被人们理解以及容易转换成分类规则等优点而被广泛研究与应用。 本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法—ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRINT算法。通过分析与比较它们各自的优缺点,本文提出一种基于ID3算法的简化熵权算法。该算法的思想是首先将泰勒公式的原理与ID3算法的属性选择标准--信息熵的求解相结合,对ID3算法信息熵的求解进行简化,改变了决策树算法中属性选择的标准,减小了算法的计算复杂度,提高了算法的运行效率;然后再赋予每个属性简化后的信息熵一个权值N,N的取值取决于每个属性的取值个数,用以平衡每个属性对数据集的不确定程度,使得属性的选择更加合理化,避免选择的属性与实际不相符。 最后在Eclipse平台上利用Java语言分别实现改进前后的ID3算法。实验结果表明,改进后的简化熵权算法提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。理论分析和实验结果表明,本文提出的改进算法改善了决策树的ID3算法的性能,表现出了良好的分类效果。