面向不平衡数据的特征选择与半监督分类算法研究

来源 :西南交通大学 | 被引量 : 12次 | 上传用户:wangbanban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据在现实世界中广泛存在。由于人们更为关注的是稀有的小类,所以选出更有利于识别小类的特征是很有必要的。而且在很多实际应用当中,获取标记样本比较困难,因此如何有效利用少量的标记样本和大量的未标记样本是很有意义的。本文主要对不平衡数据的特征选择和标记样本少的不平衡数据分类算法展开研究。研究了基于ReliefF和聚类的不平衡数据过滤型特征选择方法、基于遗传算法的不平衡数据封装型特征选择方法、基于证据理论和Biased-SVM的不平衡数据半监督分类算法、基于遗传算法和Biased-SVM的不平衡数据半监督特征选择方法。主要取得了以下四个方面的研究成果:第一部分,针对无线电信号识别问题,首先提出一种基于ReliefF和聚类的特征选择方法。在此基础上,借鉴Bagging算法,进而提出一种基于ReliefF和聚类的不平衡数据特征选择方法。该方法采用Bagging算法从大类样本集中随机抽取多个样本子集,使每个抽取的样本子集的样本数量与小类样本数量一致,然后将抽取的样本子集分别与小类样本组成多个新的训练集,再在这些新的训练集上采用基于ReliefF和聚类的特征选择方法进行特征选择得到多个特征子集,最后通过集成投票的方式得到最终的特征子集。实验结果显示,提出的方法在地空通信信号识别中表现出良好的性能,不仅有效地降低了特征维数,而且提高了干扰信号的识别率。第二部分,首先针对两类不平衡数据提出一种基于遗传算法的特征选择方法。该方法改进了遗传算法中的适应度函数,并采用分类性能较好的SVM作为分类器。该方法首先在公共数据库里的几个数据集上进行试验,结果显示该方法优于传统的基于遗传算法的特征选择方法,它不仅有效地缩减了特征维数,而且提高了小类的识别率。最后将其应用到地空通信信号识别当中,表现出良好的性能。然后将两类推广到多类,针对多类不平衡数据提出一种基于遗传算法的特征选择方法。该方法通过采用多类不平衡数据评价准则EG-mean代替总的分类准确率以改进遗传算法中的适应度函数。在一些UCI数据集上的实验结果表明,与传统的基于遗传算法的特征选择方法相比,提出的方法在特征子集大小和小类识别率两个方面均有一定的优势。第三部分,针对标记样本少的不平衡数据,首先提出了一种基于Biased-SVM的不平衡半监督分类算法。该方法首先利用初始的标记样本集训练Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试。然后为了提高标注的稳定性,引入证据理论,提出一种基于证据理论和Biased-SVM的不平衡数据半监督分类算法。该算法先采用随机子空间法得到不同的视图,然后在各个视图上利用初始的标记样本集训练Biased-SVM模型,并将其应用于未标记样本集,从而得到未标记样本的类概率输出,最后引入证据理论进行信息融合来提高标注的稳定性。通过在一些公共数据集上的实验结果表明,与其他方法相比,在不同的标记样本率下,所提方法均具有较高的数据集整体的G-mean值和小类的F-value值,并具有较高的稳定性。第四部分,针对标记样本缺乏的高维不平衡数据,提出了一种基于遗传算法和Biased-SVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中得到新标记样本集,最后再采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。在公共数据集上的实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。
其他文献
我国乳腺癌发病率在世界上虽属低发,但近年也出现了上升趋势,在女性恶性肿瘤中已升至第二位[1],成为威胁妇女健康的最常见恶性肿瘤之一.近年来随着不断的临床观察总结,晚期乳
我国是病毒性肝炎的高发区,全国约有1.3亿慢性乙型肝炎病毒(HBV)感染者,其中约3 000万是需要进行抗病毒治疗的慢性进展性肝病患者.以前治疗措施主要依赖于干扰素-α,但干扰素
高速公路对路基的承载性与稳定性具有较高要求,由于我国幅员辽阔,地形复杂多样,越来越多的公路基础设施建设延伸山区,非常容易遇到红黏土、冻土、黄土、盐渍土和膨胀土等特殊
实证分析发现,大学生深度学习在课程学习经验与教育收获之间存在显著的中介效应,课堂学习经验、课外学习经验完全通过促进学生深度学习对教育收获产生影响,课程要求部分地通
信息技术为核心的新军事革命方兴未艾,海军舰炮弹药引信的功能和使命向信息化发展的脚步越来越快,信息技术的应用使舰炮的功能和性能产生革命性的变化。与此同时随着舰炮武器
病脑临床上最常见为碱血症,其中以呼碱、呼碱合并代碱、呼碱合并代酸最多见,酸血症较少,三重酸碱紊乱占第三位[1],故临床上必须根据血气分析、电解质检查结果,并结合临床判定
我国化学化工行业在发展过程中,化学分析检验工作具有重要作用和影响,并且被广泛的应用至生产和科研中,为进一步保证化学分析检验工作的质量控制效果,还需要合理对影响化学分
文章简要分析了苏州市区内环高架桥下空间现状及存在的问题、简要梳理了国内外对城市高架桥下空间综合利用的研究现状。构建提出了苏州市区内环高架桥下空间综合利用评价体系
保障房作为城市的重要内容,在城市中占据重要的位置,建设保障房小区能够全面满足居民的生活需求,但是,当前一些保障房小区整体环境并不理想,影响了人们的居住心情,只有全面做
国家标准GB/T 17657-2013《人造板及饰面人造板理化性能试验方法》对甲醛释放量的检测方法分别提到穿孔法、干燥器法和气候箱法。文章概述上述三种检测方法的基本原理,通过比