论文部分内容阅读
不平衡数据是指在样本集中各类样本的数量差异悬殊的数据集,类别不平衡学习算法的目的是提高传统分类器在不平衡数据上的分类性能。而且,在单台机器上难以有效地处理大规模的不平衡数据。本文对类别不平衡学习算法和不平衡大数据分类问题进行了深入研究和改进:(1)针对传统分类器在不平衡数据集上性能降低的问题,提出了 FCMUSIC(Fuzzy C-means clustering Based Under Sampling In Clusters)算法。先使用层次聚类算法确定多数类样本合适的聚类簇数,然后使用模糊C-均值聚类算法将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio,IR)的倒数作为采样率,同时也考虑到类内不平衡现象,通过聚类找出多数类的小析取项样本,并抽样加入到新样本中,保证样本的多样性和代表性。将得到的平衡样本集分别结合KNN和Random Forest分类器进行分类。实验结果显示FCMUSIC算法具有比对比组算法更好的分类表现,验证了 FCMUSIC算法的有效性,FCMUSIC算法与不同的分类器结合都提高了分类器的分类性能,表明该算法具有良好的独立性。(2)本文对CBUS算法进行改进,提出KNN-CBUS算法,利用多数类样本的k近邻样本信息,删除部分多数类样本,扩大分类边界,使得分类超平面更为清晰。同时删除了少数类样本中的部分噪声样本,降低噪声样本对分类器的干扰。在处理后的样本上再运用CBUS算法。实验结果证明KNN-CBUS进一步提高了CBUS算法的F1值、G-mean和AUC值。而且1NN-CBUS算法比2NN-CBUS算法的提升幅度更大。KNN-CBUS算法处理不平衡数据比CBUS算法更具有优势。(3)对于单机执行的分类算法难以有效地处理海量不平衡数据的问题,基于Hadoop平台实现了 PFCMUSIC-RF算法,并行化地对不平衡大数据进行分类。在Hadoop分布式集群上的运行结果表明该算法具有与串行执行时相当的分类性能,在加速比、规模增长性等方面都有较好的表现,能够有效地处理不平衡大数据。