基于互信息的动态特征选择算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:xiaoF123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择的过程就是从原始特征集中挑选出使特征评价标准函数值最大的特征,并生成最优特征子集。特征选择一直是模式识别以及数据挖掘等领域中的关键问题。就分类问题而言,对样本的所属类别起到决定性作用的是样本中包含的特征向量。其中样本的完整程度、特征与特征之间的冗余程度以及特征与类标签之间的相关性都对学习模型的分类性能有着深远的影响。大量的无关或冗余特征的存在不仅降低了学习模型的分类能力,而且还会更加耗时。特征选择是为了筛选出那些与类标签的相关性最强,并且可以提供更多新的分类信息的特征,同时剔除与分类无关或者不能提供新的分类信息的冗余特征。在模式识别领域中采用特征选择降维技术,不仅能够快速有效地选择出对分类判别有用的特征,而且还可以极大地优化分类模型的架构并提高分类性能。本论文首先具体介绍了基于互信息的动态特征选择算法用到的信息理论相关知识。其次针对特征选择算法过程中算法复杂度高、分类模型复杂以及最优子集中包含的特征个数难以确定等问题进行分析研究,最后提出了两种新的基于互信息的动态特征选择算法。(1)提出了一种基于最小冗余的动态特征选择算法—MRIDFS算法。经过对DCSF分类算法的评价指标研究发现,该算法没有对类内冗余和类外冗余进行区分,从而忽略了类外冗余对算法分类性能的影响,进而导致对于冗余信息的计算不够精确。基于此发现,为了使分类算法能在精确的描述特征与类标签之间相关性的同时,能够更精确的描述特征间存在的冗余性。MRIDFS通过特征相关冗余相对比来动态调整类外冗余的重要程度,由12个标准数据集上的实验结果可知,MRIDFS能对特征空间中存在的冗余特征进行更加有效的度量与剔除,可以有效地提高分类性能。(2)提出了基于动态权重的优化条件互信息的特征选择算法—DOMCMI算法。所有特征选择算法都基于一定的数学假设,DOMCMI采取了比现有算法更弱的数学假设来优化条件互信息的下限,这样的处理可以很好的将无关特征与冗余特征进行区分,使分类模型避免选择无关特征。在此基础上,DOMCMI算法考虑到候选特征与已选特征之间可能存在的互补性,这些互补特征的选择会带来更多新的分类信息,所以DOMCMI算法对候选特征赋予了动态权重来不断调整候选特征的重要程度。由12个标准数据集上的实验结果可知,动态权重的引入可以有效地提高分类性能。
其他文献
所有的一型和部分二型糖尿病患者需给予外源性胰岛素控制血糖、防止并发症,同时还要避免用药过量造成低血糖。长达终生的注射痛苦、冷藏与防冻的麻烦、以及血糖过低的危险成
随着现代工业发展,聚合物材料在柔性静电电容器和散热器件等领域的应用成为研究热点。由于二维材料高纵横比的结构特性,在提升聚合物基复合材料的介电和导热性能方面具有重要
铁路企业在运营中需要大量的资金来支持项目建设,要筹集和管理建设铁路的项目资金,资金是公司的重要战略性资源,也是公司稳定发展的基石。如果在公司内部没有更多的资金支持,
近年来,我国各城市中供水不足、暴雨内涝、水体污染等问题频发。建设海绵城市,使用其“存、渗、净”功能能够有效解决上述问题,同时,促进城市与环境的协调发展。建设智慧化海绵城市,使用传感器采集降雨量、水位、流量等相关数据,并进行实时上传、筛选等处理,利用相关模型进行分析,实现内涝预警、积水点治理、海绵城市建设成果评估等功能,并进行可视化展示,使政府、企业、公民和社会都能参与其中,从根本上改变海绵城市管理
<正>根据国家和上海市关于做好疫情防控、减轻企业负担、实施线上培训的工作部署,上海市人力资源社会保障局全力推进企业职工线上培训补贴工作,从政策内容的针对性和制定出台
LTE-R(Long Term Evolution for Railway,铁路的长期演进技术)通信系统是下一代铁路研究发展方向之一,它作为控制列车高效安全运行的核心,必须具有较高的安全性和可靠性。而
20世纪初期,荷兰数学家布劳威尔的一系列创造性工作,为初生的拓扑学提供了新的工具和方法,从而解决了一大批困扰着世纪之交的数学家们的拓扑问题,为拓扑学在20世纪的蓬勃发展奠定了坚实的基础.布劳威尔也成为与庞加莱有着同等地位的现代拓扑学的奠基人之一.本文在搜集、整理、分析相关文献的基础上,结合拓扑学的早期发展历史,对布劳威尔的拓扑学成果进行了详细系统地梳理,探究了布劳威尔拓扑方法和思想的产生过程以及对
第一部分静脉注射甘露醇对家兔血脑屏障开放的影响目的:验证静脉注射甘露醇能否促进血脑屏障开放。方法:本文采用伊文思蓝染色法,验证静脉注射甘露醇能否促进血脑屏障开放。
胰岛素是治疗全部I型糖尿病及一部分的II型糖尿病的必选药物,目前主要给药方式为控制饭后的血糖峰值和基础血糖的频繁注射。长期注射给患者带来了巨大的不便与痛苦,胰岛素的
目的探讨let-7b在人类肝细胞癌中的生物学活性,并尝试寻找其中潜在的信号转导通路。方法本实验选用从美国模式培养物集存库(American Type Culture Collection,ATCC)购买的He