论文部分内容阅读
为了提高数据挖掘准确性和效率,文中提出了基于决策树算法的信息系统数据挖掘方法.以C4.5决策树算法计算属性的信息增益率和属性值的信息熵为基础,提出基于余弦相似度改进的C4.5决策树算法,若任意两个属性值的信息熵之差在阈值范围内,通过计算其余弦相似度合并在阈值范围内的属性值,并重新计算合并后属性的信息增益率,实现信息系统数据挖掘.实验结果显示:所提方法对不同数据集的分类精度均高于95%,数据挖掘效率高.