非均衡分类中的自适应重抽样方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:dgqshwf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非均衡数据,是指数据的两个或多个类别存在严重非均衡,如征信数据中违约样本和非违约样本比例常常存在失衡的情况。回顾近三十年的研究,这种问题的解决方案主要为欠采样,过采样和算法层面的改进,过采样方法这些年来较为流行,主要有简单随机重抽样和以SMOTE为代表的生成新样本方法,欠采样由于损失信息的特点导致在现今的研究中较为罕见,算法层面的改进则因为复杂度较高而相对不具备外推性。本文主要从抽样角度对该问题进行考虑,传统的抽样方法,无论是基于抽取式的还是生成式,都无法根据数据集的空间结构特点进行优化,这样导致抽样时无法利用样本中已有数据的空间结构信息。所以本文根据以数据空间结构特征进行抽样的思路,依据降噪自动编码器的良好训练性质,对数据集进行重抽样。本文中我们使用两种方式来衡量所提出方法的有效性,一种方法是通过直观抽样,即在知道原始分布的情况下,比较所提出抽样方法和其他抽样方法的有效性,这是从直观层面对所提出方法进行有效性验证。另一种方法是利用最终的分类结果指标作为判断分类方法优劣的依据。这两种方法相辅相成,在两个角度说明了本文所提出方法具有一定的有效性。最后应用该抽样方法到分类问题中,解决非均衡问题分类中存在的现实问题,并在最终的探索性数据分析中对该领域具体数据分析进行了探讨。
其他文献
二氧化硅气凝胶是目前已知最轻的固体材料,具有低密度、高孔隙率、高分散性、高比表面积等特点,在力学、声学、热学等诸多方面都显示出独特性质。由于纯二氧化硅气凝胶脆性大、韧性差,导致其在常压干燥过程中难以成块。单独使用时骨架强度低,力学性能差,孔径分布不均等问题限制了人们对于材料性能多元化的需要。本论文利用常压干燥的方式制备得到成块性以及力学性能较好的二氧化硅/石墨烯复合气凝胶,为其应用提供更多的可能性
当前,我国自然资源和环境容量已接近利用上线和保护红线,面对资源约束趋紧、环境污染严重、生态系统退化的形势,高耗能、高排放、高污染的老路已经难以为继,长期积累的顽瘴痼疾需要清除。面对执法主体和市场主体比例的严重失衡和日益严格的监管要求,环境保护面临的形势也越来越严峻,网格化监管为解决监管困境、提升环境保护工作提供了一种现实可能。但目前环境保护网格化监管仍处于探索阶段,运行过程中暴露出的问题直接影响网
受到工业革命的影响,原生态的生活方式已不能满足人们高质量的生活需要,先进的生产方式推动科学技术的革新。近几个世纪以来社会的成长以及成就远远超过了过去几个世纪甚至几千年的总额。然而,在享用这些先进科学技术成果的同时,我们必须承担科学技术带来的副作用。近年来,中国各方面实现了飞越式发展,但随后而来的环境污染和环境破坏也越来越威胁着人们的生活,环境污染所引起的环境侵权纠纷案件越来越多。这些环境污染事故不
等通道转角挤压(ECAP)是制备块状细晶材料的大塑性变形工艺,而镁及镁合金的ECAP变形大多在恒温下进行,对组织细化程度有限。本文以纯镁为研究对象,采用ECAP和EX-ECAP(EX:正挤压)变形工艺来获得超细晶组织。利用OM、SEM、EBSD和TEM分析组织演变,测试其硬度和拉伸性能,研究挤压温度和道次对组织和性能的影响,为高性能超细晶镁合金的制备提供理论依据和实验支撑。结果表明,200~300
为识别中性点非有效接地系统单相接地故障,提出了一种配电线路单相接地行波保护方案.它根据线路侧初始电流行波与母线端初始电压行波的极性关系构成故障方向判别元件.为了提
黄河三角洲近岸海域主要包括莱州湾西部和渤海湾南部海域,是重要的海淡水交汇区。海域内有1个国家自然保护区,5个国家海洋特别保护区,3个水产种质资源保护区。黄河每年输送的大量淡水和泥沙中含有极其丰富的营养物质,是海洋生物的天然饵料,三角洲近岸海域是海洋生物天然的产卵、孵幼和索饵场所。黄河三角洲除黄河外,还有广利河、潮河、挑河等十多条入海河流,且沿海有多个工业园区,易受到陆源污染。近年来,陆源污染物的大
本篇论文主要是研究半在线模型下的算法设计以及算法性能比分析。论文主要分为四章内容,第一章为绪论部分,首先介绍了组合优化问题的定义以及其研究意义,然后就组合优化问题中典型的排序问题进行背景、分类、研究现状等多方面叙述,最后引入近似算法的概念和基本思想并介绍Pm和本文我们所构造的S形算法。第四章是对整篇文章做了一个总结,并提出了今后研究工作可能的方向。主体内容将分别在第二章和第三章中展开详细证明。第二
以活性污泥法为代表的生物处理是当前运用最广泛的污水处理技术,因其良好的脱氮除磷效果成为了当前城镇污水处理厂中应用最普遍的污水处理工艺。然而,在生物处理过程中,微生物在降解污染物的同时会释放大量的溶解性微生物产物(Soluble microbial products,SMP)。SMP的存在会降低生物处理效率和出水的质量,影响到废水的回用和饮用水的处理,最终会对受纳水体和人体造成危害。其中,影响SMP
采用地质综合研究与多项地震技术相结合的方法,通过地质综合研究理清戴一段地层发育模式及特征、砂体的沉积模式及展布规律、不整合结构特征及油气运移输导规律;利用多项地震
以胜利油田渗透率小于5×10-3μm2的致密砂岩油藏为研究对象,从“空气渗透率相近的致密储集层,注水开发难易程度存在差异”现象出发,以毛细管压力曲线分析为基础,通过孔隙结