论文部分内容阅读
决策树方法是数据挖掘的重要方法,通常用来形成分类器和预测模型。决策树方法包含多种不同的算法,其中ID3算法是决策树方法的典型代表,是决策树生成最常用的具体实现方法,它利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分枝,在每个分枝集中重复建立树的下一个结点和分枝。通过这种方式,可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小。但是,目前的ID3算法存在着偏向于选择属性取值较多的属性,而实际中属性值较多的属性却不总是最优的属性。多值偏向可能导致从数据集中归纳出错误的规则,使决策树的性能下降,因此测试属性的选择问题成为ID3算法的一个关键问题。
针对上述问题,本文提出了一种避免了多值偏向问题的ID3改进算法——NewDtree算法。该算法是以属性相似度的理论框架为基础,通过计算条件属性和决策属性的相似度,然后把相似度的大小作为测试属性的选择标准。本文应用理论分析方法对NewDtree算法不存在多值偏向问题进行了证明,通过对NewDtree算法在University of California,Irvine(UCI)机器学习数据集中的2个标准数据集训练得出的决策树进行分析,NewDtree算法能有效的提高分类的正确率,弥补了ID3算法选择测试属性时偏向取值较多的不足。
最后,为了证明NewDtree算法的实用性,本文将NewDtree算法应用于以高校就业分析为主题的数据挖掘系统中,以实现对高校就业数据的分类,建立挖掘模型,进而给该校现在的管理决策者提供决策支持。该系统实现的关键技术在于构建决策树时测试属性的选择计算,以及决策规则的存取这两个问题。通过实验证明:该算法生成的决策树提取的决策规则较ID3算法有效,分类结果与实际基本相符,极大地提高了系统的工作效率。