基于互信息的属性选择算法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:limengwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性选择技术是数据挖掘中一个日趋重要的研究方向.基于互信息的属性选择算法是一种常见的属性选择技术,具有易用性和高效性的特点,且具有很强的理论基础,因此它是属性选择算法的研究热点.本文首先系统介绍了基于互信息的属性选择算法的基础理论,从而为新算法中评价函数的推导奠定了理论基础.其次,从搜索策略和评价函数两个方面对基于互信息的属性选择算法进行概述,并探讨它们的优缺点,这对新算法的设计起到了指导作用.最后,详细探讨了两类基于互信息的属性选择算法:一类是基于二次规划的属性选择算法,是一种最优化的属性选择算法:另一类是基于极大连通子图的属性选择算法,是一种启发式的属性选择算法.随后分别对它们提出了改进算法,并做了实验验证分析.本文针对基于二次规划的属性选择算法的求解难题,提出了一种基于Rayleigh商的新解法,即RFSCMI属性选择算法.它最终得到的是所有属性按照重要性的排名,若要得到最优属性子集,则需要设定子集中属性个数参数;针对启发式属性选择算法SOFS中过度删除相关属性的问题,提出了一种基于极大连通子图的属性选择算法,即MCSGFS属性选择算法.这是与最优属性子集中属性个数无关的算法,其结果即是最优属性子集,无需设定子集中属性个数参数.本文实验选用了四个数据集,分别是Ionosphere34、Waveform21、Waveform40和Wdbc31;选用了两个评价属性选择算法的分类器算法,分别是Naive Bayes和C4.5,利用它们对本文中5个基于互信息的属性算法进行实验.实验表明,在基于二次规划的3个属性选择算法(QPFS.EQPFS和RFSCMI)中,本文改进的算法RFSCMI的最优属性子集的分类准确率较高;在启发式的2个属性选择算法(SOFS和MCSGFS)中,本文提出的算法MCSGFS的最优属性子集的分类准确率略高于SOFS算法.根据对这5个基于互信息的属性选择算法的综合实验分析可知,在大多数情况下,最优化的基于二次规划的属性选择算法的结果优于启发式的基于极大连通子图的属性选择算法,并且RFSCMI算法是5个算法中性能最优的.
其他文献
概率密度的估计既是传统的概率论与数理统计的重点,也是统计学习理论的重要研究内容。概率密度的估计具有广泛的应用,它不仅是信息熵理论的基础,还可以应用到音频及视频信号的无
随着我国经济水平的不断提高,汽车保有量迅速增长,随之而来车辆的安全问题日益凸现,车辆遭受人为破坏的情况时有发生。目前已有的车载监控系统大多数是针对行驶车辆安全问题或车
随着Internet的迅速发展、网络带宽的提高以及音频视频编码技术的发展,VoIP(voice over internet protocol)在中国的业务也在迅速地增长。与传统PSTN电话相比,VoIP拥有方便快
越来越多的应用软件和应用系统走进了人们的生活并改变着人们的生活习惯,他们各自具有独立的优点和作用。但是人们的需求也是不断改变的,人们日益需要能实现各应用软件与系统之
煤炭业作为国民经济的支柱产业,安全生产和保障矿工的生命安全是一个永恒的主题,井下员工的具体位置与分布情况等重要数据不能及时传到井上监控中心,是矿难事故频发而营救效
秘密共享是信息安全和密码学领域中的重要研究方向,能够有效地保障信息在保存、传输和使用过程中的安全性,克服了传统密码体制中权利过于集中而被滥用的缺点,提高了系统的安
协进化算法是近年来兴起的一种算法,它的发展时间虽然不长,但已经成功地应用到一些优化问题中,包括许多NP问题。它从传统的进化算法发展而来,而又有自己的特点:在协进化算法
信息在计算机系统中存在的形式——数据,越来越成为企业、单位和个人最重要的财富,它是决策的依据,是无形的资产,而且具有准确性高和传递性快等特点,大大的提高了工作效率和
概念格是一种有效的数据挖掘与知识发现工具,分类是数据挖掘中的重要研究内容之一。本文针对分类任务,从提高概念格的构造效率以及分类规则的分类效率角度出发,研究了面向分
海量信息的存在使得人们对搜索引擎提出了更加智能化和语义化的需求,如概念搜索、语义搜索引擎等。实现它们的前提是需要对文本进行更精确更深层的多类别标注和主题理解,这是