论文部分内容阅读
随着大数据时代的到来,机器学习和数据挖掘技术正面临着前所未有的机遇和挑战。作为机器学习最核心的研究领域之一,分类问题受到了研究者持续而广泛的关注,并且出现了大量的经典理论、算法模型和应用软件。但是在现实应用领域,获取到的分类数据集经常存在类别间样本数分布不平衡的情况,造成传统分类器的分类效果明显下降,这种情况被称为类别不平衡问题。简单而言,类别不平衡就是一个类中的样本数量要明显少于另一个(或几个)类。类别不平衡问题在通讯、互联网、生态学、生物学、医学等领域广泛存在,并被列为当前数据挖掘界最突出问题之一。从学习的角度分析,少数类往往包含更重要的分类信息而且错分少数类样本的代价会更高。但是由于少数类样本不但与一些异常且重要的情况有着密切的关联,而且获取少数类样本的成本更高,因此识别的难度往往会更大。另一方面,由于大多数标准的分类算法只考虑训练集为平衡的情况,当面临不平衡数据的时候就可能会生成不理想的分类器。近几年来,由于类不平衡问题在许多应用场景中经常出现,不平衡数据分类已经成为机器学习和数据挖掘研究群体的关注热点。鉴于此,本文基于集成学习和半监督学习的相关方法,对不平衡数据的分类和特征选择问题展开了研究。现将本文的主要工作和成果总结如下:1)当前搜索引擎公司普遍受到垃圾网页(web spam)问题的困扰,本文针对不平衡垃圾网页数据集提出了一种结合过采样方法SMOTE与随机森林的改进方法SMOTERF。在WEBSPAM-UK2007数据集上的对比实验表明,本文方法在分类结果,尤其是AUC值上有了明显提升。即使与参数优化后的随机森林对比,其AUC值也有一定提高。本文方法简单且泛化能力强,可以用于搜索引擎垃圾网页检测。2)基于近几年提出的一个高效的集成学习算法旋转森林,本文提出了三个改进算法,并分别应用于不平衡的垃圾网页检测和高度不平衡数据分类的问题中。首先,本文先用SMOTE方法平衡垃圾网页数据集的原始分布,再利用改进的嵌套旋转森林算法进行分类。实验结果证明SMOTE和嵌套旋转森林的结合方法可以明显地提高不平衡的垃圾网页数据集的分类效果。针对高度不平衡数据集的分类问题,本文将两个经典的不平衡预处理方法随机欠采样和SMOTE过采样分别嵌入到旋转森林的特征提取过程中,生成了两个改进算法SROForest和RUROForest。在22个高度不平衡数据集上的对比实验结果表明,本文方法对AUC值的提高较为明显。非参数统计结果也证明了本文方法,尤其是RUROForest的表现优于其他对比方法。3)由于在许多现实数据集中,类别分布不平衡和标记样本数量过少的情况经常同时存在,因此,本文提出了一系列SMOTE与半监督框架下的自标记技术和多分类器模型的结合方法,来解决欠标记且不平衡的垃圾网页数据集分类问题。在部分标记的WEBSPAM-UK2007数据集上的对比实验结果表明,本文提出的方法,特别是基于多分类器模型的方法能够在基本不降低分类精度的前提下,显著提高spam类的recall值和整体的AUC值,是解决只有少量标记且类不平衡数据集分类问题的一个有效策略。4)针对利用高维不平衡的卵巢癌微阵列数据进行诊断及生存预测的问题,本文提出了一个基于随机森林的过滤式不平衡特征选择算法IFSRF。该算法选用AUC值作为特征选择时的评价指标,因此可以显著降低类分布不平衡给分类系统带来的负面影响。实验结果表明IFSRF能够明显提高所有分类器特别是随机森林在卵巢癌诊断、生存预测和复发预测3个不平衡数据集上的AUC值,同时还能保证整体分类精度略有提高。本文方法实现简单且鲁棒性强,可以广泛用于癌症微阵列数据集的分类问题中。综上所述,本文针对垃圾网页检测、高度不平衡数据分类和卵巢癌诊断与生存预测等不平衡数据分类问题,从样本的预处理、集成学习、半监督学习和特征选择等几个不同的角度提出了相应的解决方案,并通过实验验证了它们的有效性。本文工作可以为今后的不平衡数据分类研究提供帮助。