基于过采样和代价敏感的不平衡学习研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:JoQn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展,医学、金融、生物学等领域中产生了大量的类不平衡数据,如何从中提取出有效信息成为近年来的研究热点和难点。传统的分类算法旨在获得最大的分类精度,导致少数类样本常被误分为多数类,此时传统的分类算法不再适用于不平衡分类。针对这一问题,本文从数据层面和代价敏感层面展开不平衡数据的统计建模研究,主要成果如下:过采样作为处理不平衡数据分类的常见方法,通过合成少数类样本,以降低原始数据集不平衡程度。本文针对SMOTE及其衍生算法的缺点如合成样本共线性较强、样本重叠等,基于支持向量机的原理,提出了基于支持向量机自适应加权的合成少数类过采样方法(AWSMOTE)。一方面,AWSMOTE在变量空间中对变量赋权。样本中各个变量影响着合成样本生成的方向和大小,对变量各自赋权后,使得新样本不再是少数类样本与其近邻样本之间线性插值,进而优化少数类样本分布;另一方面,AWSMOTE在样本空间中对样本赋权,将少数类样本划分为支持向量和非支持向量,对少数类支持向量赋予更高的权重,实现少数类样本自适应地生成新样本,进而提升分类性能。借助F1、AUC、G-mean等多个评价指标,本文进行了模拟数据与真实数据实验。结果表明AWSMOTE普遍优于SMOTE、BLSMOTE、DBSMOTE和ADASYN这几种经典过采样方法。MetaCost是一种常见的代价敏感元学习的方法。MetaCost从数据集中多次随机重抽样得到多个训练子集,若数据集是不平衡的,则训练子集可能不包含或者含有很少的少数类样本,这样会影响到子分类器的预测结果和集成学习模型。因此,本文提出了A-MetaCost,即在MetaCost划分训练子集之前,运用AWSMOTE来平衡数据集,然后利用m-estimation来提高少数类的预测概率。借助F1、AUC、平均误分类代价(AMC)等多个评价指标,本文进行了相关的模拟数据与真实数据实验。结果表明A-MetaCost的分类效果显著优于MetaCost和AdaBoost的分类效果。AWSMOTE和A-MetaCost的提出适应了现实中类不平衡数据处理的需求,能够有效地提高少数类的分类精度,具有较高的应用价值。
其他文献
上同调代数是数学中经典的基础理论,有限元方法是求解偏微分方程的数值计算方法,二者通过有限元外微分结合起来.曲面上的调和微分形式空间同构于曲面的上同调群,且调和微分形式是微分形式定义泛函的极小解.本文将讨论曲面上调和微分形式计算的应用和误差估计.主要工作包括:(1)讨论具有复杂拓扑结构的封闭曲面的方形图表示算法.通过应用同伦群生成元的计算方法,简化封闭曲面的拓扑结构.由于曲面的一阶同伦群生成元集合也
学位
本文依托于国家重点研发计划项目(2017YFC0707603)、云南省科技厅重点专项(202003AC100001),针对传统摩擦阻尼器的阻尼力和刚度在起滑之后保持不变、在持续增大的地震作用下不能提供有效的阻尼力和刚度的问题,设计了一种新型四弧面挤压型摩擦阻尼器(Four Arc Extrusion Friction Damper,简称FAEF型阻尼器),该FAEF型阻尼器的主要特点是:可以依靠四
学位
潮流能的有效开发与利用在减少碳排放、促进能源可持续发展等方面具有非常重要的科学价值和现实意义。水平轴潮流能水轮机作为潮流能转换装置的关键设备,其能量利用率、压力脉动特性、噪声特性的研究受到了众多学者的特别关注。目前,通常都是在水轮机外部安装导管来实现,该方法也受到了国内外学者的广泛青睐。尽管如此,目前潮流能水轮机的发展仍存在一些关键技术问题亟待解决,例如:1、导管与转轮间的间隙对潮流能水轮机水动力
学位
我国西部地区大量运营公路隧道地处高烈度地震区,与此同时,运营隧道质量缺陷及病害问题较为突出,结构质量缺陷的存在会影响隧道抗震性能,使得含质量缺陷区域成为隧道抗震薄弱部位。带缺陷服役的隧道,将会成为未来公路隧道震害的高危区,严重危及国家交通生命线工程安全和人民生命财产安全。因此,开展缺陷影响下隧道结构地震损伤的研究,对揭示隧道地震响应的缺陷影响机理、实现全寿命周期抗震性能评价具有重要的理论意义。目前
学位
目标检测是计算机视觉领域的经典任务,是后续进行图像分析、图像理解的关键。随着卷积神经网络的不断发展,基于深度学习的目标检测模型在检测精度和检测速度上都有重大的突破。小目标检测是现阶段目标检测的重点和难点问题,一方面,因为小目标像素分辨率低、特征信息少,易造成漏检、错检问题;另一方面,为了满足实时检测的需要,基于深度学习的小目标检测模型不能过于复杂。基于此,本文从提高模型检测精度和模型压缩两个角度出
学位
自1972年以来,泰国政府为了照顾企业员工和雇主的利益实行了最低工资标准制度,通过一系列政策和法律,设定了最低工资标准及三方工资委员会,推行最低工资标准的有效实施。随着世界经济贸易的发展,泰国越来越多的外资投入为泰国各行各业的发展带来了新的活力,推动了泰国经济快速发展。经济发展带来了人们收入的增加,泰国最低工资标准受外商投资的影响发生若干次变化,外商投资因此的工资变化已经成为泰国经济领域、社会保障
学位
排序问题是一种被广泛应用于生产计划、计算机控制等众多领域的一类重要的组合最优化问题,经常在理论界得到研究讨论.其就是要充分利用某些资源,达到以最佳方式完成一组任务的目标.排序问题在现实生活中的许多领域都扮演着不可替代的角色,人们对于各种排序问题的研究越来越多,等级约束下的排序问题就是其中之一.等级约束下的平行机排序问题是组合优化领域中的经典难题之一,近十年来得到了广泛的研究,在近似算法设计中发挥了
学位
我国岩溶发育茂盛,众多房屋建筑以及基础设施包括市政道路、公路和铁路需在浅埋岩溶地下洞穴密布和发育的地区修建,而这些设施可能因为地下洞穴的影响发生地面变形、滑坡等灾害从而严重影响各类设施的安全与使用,所以在岩溶地方开展各类建设项目时,往往需要对有关场地进行稳定性评估。目前国内外的研究成果中,有关地下洞穴与岩土体稳定性关系的研究绝大部分专注于研究岩溶与地下洞穴的关系、地下洞穴本身的力学参数及其形成规律
学位
顶点覆盖约束下的平行机排序问题和拒绝费用受限的平行机排序问题都是著名的NP-难问题,假设P≠NP,那么这两个问题不存在多项式时间精确算法.在顶点覆盖约束下的平行机排序问题中,工件和图的顶点一一对应,工件的加工时间代表顶点的权重,图的边限制了工件之间的关系,目标是找到一部分工件使得这部分工件既是图中的一个顶点覆盖同时在机器上的最大完工时间达到最小.在拒绝费用受限的平行机排序问题中,每个工件都有一个加
学位
具有偏斜特征的异质数据广泛存在于生物医学、气候科学和经济金融等领域.经典的统计模型忽略了数据的异质性,不适用于分析来自异质总体的数据.有限混合回归(FMR)模型是处理这类数据的有效统计工具,它的软聚类机制同时实现了异质数据的聚类和建模,在回归和聚类分析等方面有着广泛的应用.传统统计推断方法的应用要求数据服从对称分布,然而现有的真实数据的分析结果表明,相比于对称分布,偏斜分布能捕捉到的信息更加准确和
学位