基于集成学习的不平衡样本分类问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tjtcqp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集是指某一类样本的数量远大于其他类样本的数量,不平衡数据集分类问题在机器学习和模式识别的很多领域中广泛存在。传统的分类算法大都基于各类样本的数量是大致平衡的假设,用于解决不平衡样本分类问题时常常效果不佳。当前许多研究者针对不平衡样本分类问题从数据层面和算法层面提出了解决方案并取得了一定的效果。数据层面的混合采样方法能发挥欠采样和过采样的优势,同时能解决过采样造成的样本入侵到其他类中的问题,因此存在独特的优势。当前对混合采样方法研究还不充分,存在将混合采样过程分别进行、没有关注类内不平衡导致的少数类样本重要性不同、正负样本采样的比例难以确定等问题;集成学习框架被广泛应用于处理不平衡分类问题中,结合混合采样组合的差异性也会对集成学习的效果产生影响。本文针对以上问题,开展了对数据层面的混合采样方法和算法层面结合数据预处理与集成学习方法的研究。本文针对不平衡样本二分类问题的性质和混合采样方法的特点,提出了一种基于混合采样的集成学习方案。针对少数类样本采样时重要性不同的特点及现有的混合采样方法没有将欠采样和过采样在同一个过程中进行考虑的情况,应用进化算法监督混合采样的过程。进化算法的染色体代表了混合采样的组合,使用多位二进制码表示少数类的过采样率,使得欠采样和过采样形成的采样组合作为一个整体用进化算法的适应函数进行评价,同时每个少数类样本的过采样率能够得到优化,形成了基于进化算法的混合采样算法。本论文根据进化算法搜索空间的定义,对该方法在解决少数类样本的噪声样本、边界样本和类内不平衡问题进行分析。集成学习在解决不平衡分类问题时能结合采样技术多次采样来确定不平衡样本的分布,具有独特优势。由于Ada Boost框架对基分类器的差异性敏感,本文在使用进化混合采样方法产生的样本训练基分类器的同时,考虑基分类器训练所使用的混合采样的组合的差异性影响分类效果,并在进化算法的适应函数中考虑这个差异性,提出了基于进化混合采样的集成学习二分类方案。本文经过在16个数据集上的实验,验证了进化混合采样的有效性,并且对比其他解决不平衡样本分类问题的集成算法AUC值,证明了进化混合采样的集成算法的有效性。
其他文献
当前个人金融业务竞争激烈,人民币储蓄存款的增长速度比企业存款的速度要快,显示出个人金融业务强劲的势头。本文选择中国银行扬州分行作为研究对象,研究在网络金融发展的大背景下,该行如何更换经营理念和经营模式,以改革创新为契机,加快个人金融业务的发展等亟待解决的问题。本文结合中国银行扬州分行的具体案例,总结了其个人金融业务的现状,通过问卷调查的方式对中国银行扬州分行用户习惯、银行个人金融业务战略的定位、选
随着医疗卫生事业的迅猛发展,院现代化建设进程的加快,以及体现着新技术的高、难、复杂性手术的开展,对手术室洁净条件、功能要求也越来越高.建设洁净手术部,已受到广大医院
本文结合工程设计实际,通过分析比较病房空调现有的四种形式,论证了目前国内病房采用新风加风机盘管系统的合理性,提出了解决实际运行中存在问题的方法.
目的1.检测不同高眼压动物模型中下丘脑弓状核处γ-氨基丁酸受体(gamma-aminobutyric acid receptor,GABA receptor),即GABA-A与GABA-B受体表达量的变化。2.GABA受体的抑制剂
近年来,随着中外经济合作与交流的深入,进出口仪器设备说明书的翻译日益受到关注。且随着环境污染的加剧及本着可持续发展的政策,我国对于环境监测和环境保护高度重视。因此
液化天然气(Liquefied Natural Gas,简称LNG)作为一种清洁、经济的能源,在船舶动力能源的应用前景广阔。随着LNG燃料动力船舶的增加,作为LNG燃料动力船舶基础设施的水上LNG加
随着国家经济的快速发展,人民群众对医疗服务需求的变化,国家对医疗卫生事业的投资逐年增加,国内外医疗技术水平不断提高,越来越多的高难度复杂手术技术应用于临床,对手术部
期刊
厦门中山医院与深圳市众安康后勤服务有限公司日前正式签订后勤管理服务委托书,深圳市众安康将全面接管厦门中山医院的后勤保障、医疗辅助服务工作.