面向高维不平衡数据的特征选择算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xxn1954
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,同时具有高维问题与不平衡问题的高维不平衡数据越来越多地出现在以生物信息、卫星图像为代表的新兴领域中,其复杂的数据特性给数据挖掘研究造成了极大的挑战。不平衡问题是指数据集中不同类别样本的数目差别很大,训练得到的分类器更偏向多数类而忽视了蕴含着重要信息的少数类样本的情况;高维问题是指由于数据特征空间维度过高而引起的分类模型训练效率低下、模型过度拟合以及数据可解释性差等情况。在高维数据的处理过程中,筛选出与分类目标高度相关且彼此冗余最小的低维特征子集对于提高学习效率和分类精度具有十分重要的意义。然而在数据同时存在类别分布不平衡的情况时,常用的特征选择算法往往倾向于选择对多数类有利的特征子集,从而导致分类算法在少数类上的分类效果较差。基于经典的包裹式特征选择算法SVM-RFE,本文在分析了其面对不平衡样本时所存在的类别偏向性问题后,提出了采用以F值优化为目标的结构化支持向量机模型权重评价特征的改进算法SSVM-RFE,使得算法在迭代消除特征的过程中能够考虑到特征对少数类样本分类正确率的重要性,从而实现了兼顾多数类与少数类的特征选择。由于基于分类器权重的特征排序方法只能反映出特征与类标之间的相关性,而不能解决特征之间的冗余问题。因此本文在使用SSVM-RFE算法删除掉大量与分类目标不相关的特征后,基于类型分解的框架将不平衡数据集构造成了多个平衡的数据子集,并使用希尔伯特-施密特相关性标准(HSIC)在这些数据子集上衡量特征间的无偏相关性,随后提出了一种针对特征组合问题改进的近似马尔科夫毯特征选择方法CBMBFS对冗余的特征进行删除。通过本文提出的两阶段特征选择方法SSVM-RFE-CBMBFS,在考虑样本不平衡分布的基础上,可以选出一组对于类标区分度最大且特征之间冗余度最小的特征子集。随后进行了一系列的实验,采用了多种不平衡数据分类评价指标来评价算法的分类结果并与其它文献中的算法进行比较,证明了该算法的有效性。
其他文献
文章提出了基于PKI密码体系的可信行政审批系统的框架,以PKI体系中的数字签名为主要技术手段,结合了业界先进的SOA架构体系,使政府机关以行政审批项目办理为主要业务的行政审
目的:宫外孕诊断中采取阴道超声联合腹部超声临床价值。方法:对本院2018年10月-2019年10月间收治的明确诊断为宫外孕患者临床资料进行回顾性分析,从中抽选出90例患者资料,根
基坑开挖引起地面不均匀沉降并导致周围地下构筑物倾斜、开裂等问题,一直以来受到人们关注。结合具体工程实例采用有限元法模拟基坑开挖过程的工况,分析基坑开挖对周围地铁隧
猪传染性胃肠炎是由猪传染性胃肠炎病毒引起的一种急性、高度接触性肠道传染病,病猪以呕吐、严重腹泻和脱水为特征。一般发生在12月到次年3月,不同年龄猪都易感,2周龄内仔猪
提出了一种基于以太网对变频器进行远程监控的解决方案。介绍了将变频器的故障信息以电子邮件的形式发送出去的实现方法。详细阐述通过以太网对远程变频器监控的关键技术。实
本文主要介绍了思林电站GIS设备的安装及耐压试验过程,具有一定的应用性和实践性。平高公司设计制造的GIS产品外壳选用了抗腐蚀性强的铝合金材料,具有占地面积小、安装快捷、运
在管道高静压区特殊地段抢修施工之前,将管道压扁,能够在短时间内最大限度减少或者止住油品泄漏危害。基于管道塑性变形规律和能量原理,利用“Bow—tie”管道塑性变形计算模型,对
冰冰背是河南林州的一大自然奇观。这里自每年的三月起开始结冰,到八月以后,冰冻开始融化。引起这种冬夏倒置现象的原因与这里特殊的地层结构和地质构造产生强大的"烟囱效应"密切相关。冰冰背景观所处海拔高度都比较高,与附近沟谷最低点高差较大,区内巨厚层的石英砂岩和断裂构造组合形成高差巨大的竖向通道,类似于一个高差数百米的隐形烟囱。夏季地面温度越高,气压越低,烟囱效应越强,冲出"烟囱口"的气体膨胀的体积就越大
在敞开式循环冷却水系统中,浓缩倍数越大,说明水重复利用率越高,排污越少,补水也会越少。本文以煤气发电循环水系统为例,从水处理成本方面分析研究以软水代替清水提高循环水
将GPS系统用于航天器的导航、定位和授时是目前的趋势。但是星载接收机的高速轨道运动特点有区别于地面用户。通过建立GPS星座与国际空间站的链路进行仿真分析。仿真结果表明GPS星座可以满足空间站的大于4颗卫星的信号可用性需求。