论文部分内容阅读
数据挖掘,也称之为数据库中知识发现,涉及了人工智能、机器学习等重要研究领域。分类是数据挖掘的一个关键内容。目前,分类主用于诊断、预测、区分、甄别等方面。决策树技术是一项重要的分类技术。较其他分类模型简洁、易懂,便于操作,并且可保证分类准确性不低于其他分类模型。粗糙集能处理不确定的知识。粗糙集技术能更好的发现不准确数据及噪声数据内在的结构联系,生成更加健壮的决策树,可用于优化决策树算法。本文将对各种基于粗糙集理论的决策树生成算法进行了深入的研究,主要工作如下:1、在变精度粗糙集理论基础上,定义了变精度明确区与变精度非明确区的概念,替换原始的非明确区和明确区的概念。2、认真分析了Jinmao-Wei等人提出的基于粗糙集的单变量决策树算法HACRS的优缺点。采用C4.5算法中的信息增益率的标准替代ID3算法中的信息增益的标准,结合这两个新的概念,提出了一种基于变精度粗糙集的单变量决策树算法HACBRS算法。3、HACBRS算法在对数据集进行划分的过程中,引入分类误差参数,能对少量噪声数据对结果产生的影响进行了弱化,也不会导致生成的决策树对原来的数据集会产生过度拟合的现象,这样就使得决策树生成的泛化能力得到了大大的提高。4、将这几种算法同经典的ID3算法进行实例分析比较。5、通过分析比较,基于粗糙集理论生成的决策树要比基于信息熵的ID3算法构造的决策树规模小的多,简洁的多,可以很好的抑制噪声数据,分类精度也高得多。同时进一步验证了基于变精度粗糙集理论的决策树生成算法比基于粗糙集理论的决策树算法有一定改进方面的优势。