论文部分内容阅读
决策树分析就是知识发现的过程,决策树模型的复杂度和预测精度决定了决策树的好坏。决策树是根据启发规则生成的,常见的决策树生成算法有基于信息论的ID3、C4.5算法,但是这些算法在实际应用中都存在着各种不足之处。本文提出了一种基于信息熵的离散化算法I-C4.5算法,以减少C4.5算法在做数据离散化处理时产生计算量偏大的问题。本文将改进的算法I-C4.5应用到了医院对肺病住院费用决策树分析中,并对比分析了I-C4.5算法和C4.5算法生成的决策树规则,验证了I-C4.5算法在决策树规则分析上的优越