论文部分内容阅读
支持向量机是目前比较流行的机器学习算法,可以较好地解决小样本、非线性和局部极小点等实际问题,并且能够高效地处理平衡数据集分类问题。然而,对于非平衡数据集,SVM产生的分类模型偏向多数类。由于SVM算法对于数据集中的孤立点和随机噪声比较敏感,尽管现在已有的类非平衡学习方法能使SVM对类非平衡问题的敏感性减弱,但是仍然面临着随机噪声和孤立点的问题。而且SVM学习过程中需要调整一些参数,模型学习消耗时间较长。本文针对上述问题首先对面向非平衡数据的模糊聚类方法进行分析,在样本集非平衡程度不是太大时,采用基于核的可能性模糊C-均值聚类算法KPFCM对非平衡数据集进行聚类,典型值和模糊隶属度值的协调作用可以提升算法对样本非平衡的健壮性以及对随机噪声的鲁棒性。同时,本文给出一种高斯核参数优化方法,用于核聚类的参数选取。在样本非平衡比例较大情况下,针对模糊聚类中心严重偏移的问题,本文将过采样技术与KFCM模糊聚类算法相结合来处理非平衡数据模糊聚类。其次,在面向非平衡数据的模糊聚类方法分析的基础上,提出了一种基于核聚类KPFCM的非平衡模糊支持向量机分类算法FPSVM-CIL,实现存在随机噪声以及孤立样本的非平衡数据分类问题。算法通过为核聚类的模糊隶属度和典型值设置阈值减小样本集的非平衡比例,然后将核聚类得到的隶属度和类非平衡学习的不同惩罚系数线性组合作为模糊隶属度值引入到模糊支持向量机模型中。在人工数据集和真实数据集的实验结果表明,FPSVM-CIL算法对于非平衡样本集具有很好的分类性能,对于随机噪声也具有很好的鲁棒性。最后,针对支持向量机算法学习过程耗时较长的问题,在对支持向量机和极速学习机模型分析的基础上,利用极速学习机模型学习速度较快的优点,提出了一种非平衡模糊支持向量机近似方法ELM-CIL。ELM-CIL方法对传统极速学习机模型进行改进,根据样本分布情况在模型中引入不同的模糊值及惩罚系数。实验表明,ELM-CIL算法在保证非平衡样本集中少数类的分类精度与FPSVM-CIL算法相当的前提下,同时加快了算法的学习速度,算法尤其适合处理大规模的非平衡样本集分类问题。