基于迁移过采样的类别不平衡学习算法研究

来源 :东南大学 | 被引量 : 2次 | 上传用户:happy_0421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类别不平衡问题是机器学习在很多真实世界应用中面临的一大挑战,即分类问题中各类样本数差异明显,某些类别样本数远远小于其他类别,而小类别是关注的重点。在类别不平衡学习中,性能评价准则为AUC、F值或G-mean等,而非正确率。随机过采样是一种简单有效的类别不平衡学习方法,但它通常有过拟合风险。为了降低过拟合风险,SMOTE方法采用增加人工小类样本的方式进行过采样,但可能会引入噪声,并加重类间的“重叠”(overlapping)问题,也就是说,人工样本和真实样本不是独立同分布的。为了生成与真实数据分布更为一致的人工样本,一系列改进算法被提出,它们使用小类样本的近邻信息指导采样过程,或者对真实数据分布进行估计来生成小类样本。然而,在小类样本绝对稀少时,不管采用何种策略,都不能保证人工样本完全服从真实数据分布。因此,有必要承认人工样本不服从真实数据分布,并由此引出了一个值得研究的问题:在小类样本绝对稀少时,如何有效利用这些人工小类样本解决类别不平衡问题。本文针对该问题进行研究,考虑到人工小类样本虽然与真实数据分布不完全一致,但它们具有高度相关性,因此使用迁移学习的思想有效利用与真实数据分布高度相关的人工小类样本解决类别不平衡问题,主要做了以下工作:1)提出了一种基于Boosting框架的类别不平衡学习算法TrasoBoost。该算法在每一轮迭代过程中分别降低和提高被学习器错分的人工小类样本和原始样本的权重,而保持被正确分类的样本权重不变。这样在若干轮迭代后,非同分布的人工小类样本权重会逐渐降低,从而降低其对分类器的影响。实验结果表明,TrasoBoost优于多种流行的类别不平衡学习算法。2)提出了一种基于大间隔的迁移学习算法TrSVMs。该算法对基于大间隔的迁移学习算法AUX-SVMs进行了改进,对源领域和目标领域在一个优化问题中分别学习分类超平面以降低源领域和目标领域分布差异大带来的困难。实验结果表明,TrSVMs性能优于AUX-SVMs。后续工作中我们将在TrSVMs算法的基础上,有效利用非独立同分布的人工小类样本解决类别不平衡问题。
其他文献
“概论”部分在《反杜林论》中处于总纲的地位,因为它从科学社会主义产生的历史,说明了马克思主义三个组成部分之间的内在联系。这部分从逻辑结构上看,恩格斯主要讲了既相互联系
叙述了眼前山铁矿露天转地下开采工程量大,周期长、施工组织难度大、时间紧、任务重等现状,并结合矿山生产实际情况,重新对施工网络计划进行优化调整,保证在安全的前提下,实现矿山
西泉眼水库作为哈尔滨市第二水源地,事关居民的饮用水安全,而浮游植物群落特征则是水库生态系统健康状况监测与评估的重要研究内容之一,能为水库生态系统健康提供科学支撑.本
现如今,社会经济在高效地发展,在城市建设的过程中,高压电器的数量在不断增加。在对不同类型的高压电器进行设计的过程中,机械的可靠性是相对比较重要的影响因素。在保证高压
目的:探究综合护理干预在普外科术后应用自控镇痛泵患者中应用价值。方法:随机抽取2015年5月-2016年5月我院普外科术后应用自控镇痛泵治疗的90例患者作为观察对象,并随机分为实
大量研究和实践不仅证明了员工敬业度和企业经营绩效之间的强关联性,而且还表明企业完全可以通过有效措施来提升员工的敬业度。以数据赢得管理层的支持在很多企业,对员工敬业
谈到 17、18世纪在华传教士对萌芽期欧洲汉学的贡献 ,通常从这几个指标衡量 :传教士本人的中文造诣和有关中国之研究成果的价值 ,传教士在欧洲传播普及中国知识的程度 ,传教
三维排水柔性生态护坡由装有营养土的生态袋,通过三维排水联接扣由单体联结成一个整体,形成一个稳定的柔性护坡结构,并与植物根系联结在一起形成复合稳定的边坡防护结构。它
探求竞争情报的涵义和国内外发展现状,指出竞争情报对提升企业竞争力的作用,提出强化决策者的情报意识,建立高素质的情报队伍等建议。
实际工程结构设计往往在确定性范畴内进行,所得结构存在较大失效可能性,基于此,提出一种基于可靠性的连续体动态拓扑优化方法,将结构可靠性分析方法嵌套到连续体拓扑优化中.考虑了