基于半监督和集成学习的不平衡数据特征选择和分类

来源 :山东师范大学 | 被引量 : 21次 | 上传用户:lihaohua008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,机器学习和数据挖掘技术正面临着前所未有的机遇和挑战。作为机器学习最核心的研究领域之一,分类问题受到了研究者持续而广泛的关注,并且出现了大量的经典理论、算法模型和应用软件。但是在现实应用领域,获取到的分类数据集经常存在类别间样本数分布不平衡的情况,造成传统分类器的分类效果明显下降,这种情况被称为类别不平衡问题。简单而言,类别不平衡就是一个类中的样本数量要明显少于另一个(或几个)类。类别不平衡问题在通讯、互联网、生态学、生物学、医学等领域广泛存在,并被列为当前数据挖掘界最突出问题之一。从学习的角度分析,少数类往往包含更重要的分类信息而且错分少数类样本的代价会更高。但是由于少数类样本不但与一些异常且重要的情况有着密切的关联,而且获取少数类样本的成本更高,因此识别的难度往往会更大。另一方面,由于大多数标准的分类算法只考虑训练集为平衡的情况,当面临不平衡数据的时候就可能会生成不理想的分类器。近几年来,由于类不平衡问题在许多应用场景中经常出现,不平衡数据分类已经成为机器学习和数据挖掘研究群体的关注热点。鉴于此,本文基于集成学习和半监督学习的相关方法,对不平衡数据的分类和特征选择问题展开了研究。现将本文的主要工作和成果总结如下:1)当前搜索引擎公司普遍受到垃圾网页(web spam)问题的困扰,本文针对不平衡垃圾网页数据集提出了一种结合过采样方法SMOTE与随机森林的改进方法SMOTERF。在WEBSPAM-UK2007数据集上的对比实验表明,本文方法在分类结果,尤其是AUC值上有了明显提升。即使与参数优化后的随机森林对比,其AUC值也有一定提高。本文方法简单且泛化能力强,可以用于搜索引擎垃圾网页检测。2)基于近几年提出的一个高效的集成学习算法旋转森林,本文提出了三个改进算法,并分别应用于不平衡的垃圾网页检测和高度不平衡数据分类的问题中。首先,本文先用SMOTE方法平衡垃圾网页数据集的原始分布,再利用改进的嵌套旋转森林算法进行分类。实验结果证明SMOTE和嵌套旋转森林的结合方法可以明显地提高不平衡的垃圾网页数据集的分类效果。针对高度不平衡数据集的分类问题,本文将两个经典的不平衡预处理方法随机欠采样和SMOTE过采样分别嵌入到旋转森林的特征提取过程中,生成了两个改进算法SROForest和RUROForest。在22个高度不平衡数据集上的对比实验结果表明,本文方法对AUC值的提高较为明显。非参数统计结果也证明了本文方法,尤其是RUROForest的表现优于其他对比方法。3)由于在许多现实数据集中,类别分布不平衡和标记样本数量过少的情况经常同时存在,因此,本文提出了一系列SMOTE与半监督框架下的自标记技术和多分类器模型的结合方法,来解决欠标记且不平衡的垃圾网页数据集分类问题。在部分标记的WEBSPAM-UK2007数据集上的对比实验结果表明,本文提出的方法,特别是基于多分类器模型的方法能够在基本不降低分类精度的前提下,显著提高spam类的recall值和整体的AUC值,是解决只有少量标记且类不平衡数据集分类问题的一个有效策略。4)针对利用高维不平衡的卵巢癌微阵列数据进行诊断及生存预测的问题,本文提出了一个基于随机森林的过滤式不平衡特征选择算法IFSRF。该算法选用AUC值作为特征选择时的评价指标,因此可以显著降低类分布不平衡给分类系统带来的负面影响。实验结果表明IFSRF能够明显提高所有分类器特别是随机森林在卵巢癌诊断、生存预测和复发预测3个不平衡数据集上的AUC值,同时还能保证整体分类精度略有提高。本文方法实现简单且鲁棒性强,可以广泛用于癌症微阵列数据集的分类问题中。综上所述,本文针对垃圾网页检测、高度不平衡数据分类和卵巢癌诊断与生存预测等不平衡数据分类问题,从样本的预处理、集成学习、半监督学习和特征选择等几个不同的角度提出了相应的解决方案,并通过实验验证了它们的有效性。本文工作可以为今后的不平衡数据分类研究提供帮助。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着我国建筑事业不断发展,当今工程监理行业也迈向了新的台阶,工程监理职责范围也变得更加广泛。工程监理除了要保障建筑工程的施工质量外,还需要在保证质量达标基础上控制
工信部副部长辛国斌近日表示,在网络建设上应适度超前,是要让"路"等"车",而不是"车"等"路"。2020年步入下半程,伴随着"新基建"的建设步伐加快,我国5G发展持续发力。目前,我国
近些年来P2P系统受到越来越多的关注。P2P网络的一个重要目标就是系统内所有用户共享各自的资源,如计算能力、网络带宽、存储空间、内容。目前大多数P2P系统都是建立在用户愿
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本刊讯9月29日,位于河南省焦作市物资城的箭牌卫浴专卖店推出“国庆总动员、省钱欢乐购”优惠活动。
公司的分配制度改革正悄然进行着,大锅饭原则已经被个人竞争力制度所替代.特别在销售部门,员工的收入水平受其个人的工作表现和工作绩效影响,但是为什么人员的频繁跳槽现象依
作为最早将水头龙拉丝工艺引进国内的广州市诚龙实业有限公司,依据先进的工艺,创立“爱洛斯”品牌水龙头,成为国内外著名卫浴品牌长期合作商。
随着我国市场经济的不断发展,石油企业在运营、技术方面也得到了相应的提升。石油企业作为国家特大型企业,信息化条件下的石油企业物资采购,应建立更为规范化、合理化、高效
目的:探讨开放式完全腹膜外无张力修补术(TEP)在腹股沟疝治疗中的临床应用价值。方法:对采用开放式,IEP治疗成人腹股沟疝51例的临床资料进行回顾性分析。结果:所有病例均手术成功,平