论文部分内容阅读
不平衡数据在现实世界中广泛存在。由于人们更为关注的是稀有的小类,所以选出更有利于识别小类的特征是很有必要的。而且在很多实际应用当中,获取标记样本比较困难,因此如何有效利用少量的标记样本和大量的未标记样本是很有意义的。本文主要对不平衡数据的特征选择和标记样本少的不平衡数据分类算法展开研究。研究了基于ReliefF和聚类的不平衡数据过滤型特征选择方法、基于遗传算法的不平衡数据封装型特征选择方法、基于证据理论和Biased-SVM的不平衡数据半监督分类算法、基于遗传算法和Biased-SVM的不平衡数据半监督特征选择方法。主要取得了以下四个方面的研究成果:第一部分,针对无线电信号识别问题,首先提出一种基于ReliefF和聚类的特征选择方法。在此基础上,借鉴Bagging算法,进而提出一种基于ReliefF和聚类的不平衡数据特征选择方法。该方法采用Bagging算法从大类样本集中随机抽取多个样本子集,使每个抽取的样本子集的样本数量与小类样本数量一致,然后将抽取的样本子集分别与小类样本组成多个新的训练集,再在这些新的训练集上采用基于ReliefF和聚类的特征选择方法进行特征选择得到多个特征子集,最后通过集成投票的方式得到最终的特征子集。实验结果显示,提出的方法在地空通信信号识别中表现出良好的性能,不仅有效地降低了特征维数,而且提高了干扰信号的识别率。第二部分,首先针对两类不平衡数据提出一种基于遗传算法的特征选择方法。该方法改进了遗传算法中的适应度函数,并采用分类性能较好的SVM作为分类器。该方法首先在公共数据库里的几个数据集上进行试验,结果显示该方法优于传统的基于遗传算法的特征选择方法,它不仅有效地缩减了特征维数,而且提高了小类的识别率。最后将其应用到地空通信信号识别当中,表现出良好的性能。然后将两类推广到多类,针对多类不平衡数据提出一种基于遗传算法的特征选择方法。该方法通过采用多类不平衡数据评价准则EG-mean代替总的分类准确率以改进遗传算法中的适应度函数。在一些UCI数据集上的实验结果表明,与传统的基于遗传算法的特征选择方法相比,提出的方法在特征子集大小和小类识别率两个方面均有一定的优势。第三部分,针对标记样本少的不平衡数据,首先提出了一种基于Biased-SVM的不平衡半监督分类算法。该方法首先利用初始的标记样本集训练Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试。然后为了提高标注的稳定性,引入证据理论,提出一种基于证据理论和Biased-SVM的不平衡数据半监督分类算法。该算法先采用随机子空间法得到不同的视图,然后在各个视图上利用初始的标记样本集训练Biased-SVM模型,并将其应用于未标记样本集,从而得到未标记样本的类概率输出,最后引入证据理论进行信息融合来提高标注的稳定性。通过在一些公共数据集上的实验结果表明,与其他方法相比,在不同的标记样本率下,所提方法均具有较高的数据集整体的G-mean值和小类的F-value值,并具有较高的稳定性。第四部分,针对标记样本缺乏的高维不平衡数据,提出了一种基于遗传算法和Biased-SVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中得到新标记样本集,最后再采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。在公共数据集上的实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。