论文部分内容阅读
属性选择技术是数据挖掘中一个日趋重要的研究方向.基于互信息的属性选择算法是一种常见的属性选择技术,具有易用性和高效性的特点,且具有很强的理论基础,因此它是属性选择算法的研究热点.本文首先系统介绍了基于互信息的属性选择算法的基础理论,从而为新算法中评价函数的推导奠定了理论基础.其次,从搜索策略和评价函数两个方面对基于互信息的属性选择算法进行概述,并探讨它们的优缺点,这对新算法的设计起到了指导作用.最后,详细探讨了两类基于互信息的属性选择算法:一类是基于二次规划的属性选择算法,是一种最优化的属性选择算法:另一类是基于极大连通子图的属性选择算法,是一种启发式的属性选择算法.随后分别对它们提出了改进算法,并做了实验验证分析.本文针对基于二次规划的属性选择算法的求解难题,提出了一种基于Rayleigh商的新解法,即RFSCMI属性选择算法.它最终得到的是所有属性按照重要性的排名,若要得到最优属性子集,则需要设定子集中属性个数参数;针对启发式属性选择算法SOFS中过度删除相关属性的问题,提出了一种基于极大连通子图的属性选择算法,即MCSGFS属性选择算法.这是与最优属性子集中属性个数无关的算法,其结果即是最优属性子集,无需设定子集中属性个数参数.本文实验选用了四个数据集,分别是Ionosphere34、Waveform21、Waveform40和Wdbc31;选用了两个评价属性选择算法的分类器算法,分别是Naive Bayes和C4.5,利用它们对本文中5个基于互信息的属性算法进行实验.实验表明,在基于二次规划的3个属性选择算法(QPFS.EQPFS和RFSCMI)中,本文改进的算法RFSCMI的最优属性子集的分类准确率较高;在启发式的2个属性选择算法(SOFS和MCSGFS)中,本文提出的算法MCSGFS的最优属性子集的分类准确率略高于SOFS算法.根据对这5个基于互信息的属性选择算法的综合实验分析可知,在大多数情况下,最优化的基于二次规划的属性选择算法的结果优于启发式的基于极大连通子图的属性选择算法,并且RFSCMI算法是5个算法中性能最优的.