论文部分内容阅读
归纳学习的核心问题是从给定的数据集中抽取分类规则,决策树归纳是一种典型的分类规则抽取方法,扩展属性的选择是决策树归纳的核心问题,基于离散化的连续值决策树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择扩展属性,计算时间复杂度高。针对这一问题,本文提出了一种基于相容粗糙集技术的连续值属性决策树规则抽取方法。该方法首先利用相容粗糙集技术选择扩展属性,然后找出该属性的最优割点,分割样例集并递归地构建决策树。另外,针对压缩近邻规则方法寻找一致子集计算复杂度非常高的问题,本文还提出了基于粗糙集技术的压缩近邻规则抽取方法。该方法分为三步:首先利用粗糙集方法求属性约简(特征选择),这样能将冗余的属性去掉;然后选取靠近边界域的样例,这样能将冗余的样例去掉;最后从选出的样例中计算一致子集。从理论上分析了本文提出的算法的计算复杂度并在多个数据集上进行了实验,实验结果及对实验结果的统计分析均表明本文提出的方法在计算复杂度和分类精度方面均优于其他相关方法。