非平衡数据集过采样算法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:lho001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集的特征是不同类的样本数量存在着显著的数量差异。从不平衡数据集学习到的基本分类器的预测结果通常会偏向于多数类。产生这种偏差的原因在于传统的分类算法通常使用整体分类精度作为优化指标,而在非平衡数据集中,多数类主导了整体精度。所以解决非平衡数据集分类问题的方法主要分为两类,一类是通过重采样算法,在数据层面改变不平衡性;另一类则是算法层面的改进,修改分类算法使其能够更好地处理不平衡数据集。通过对现阶段非平衡数据集分类方法的研究和分析,本文提出了一些经典算法的改进方案和新的过采样算法:(1)改进SMOTE算法。SMOTE算法根据两个少数样本的线段作为端点生成一个合成样本,由于参与合成的样本数量较少、参考的信息有限等原因,该方法产生的人工样本缺乏多样性。改进的SMOTE算法通过选择两个以上的真实少数样本来进行合成步骤,增加了合成样本的多样性。实验结果表明,改进后的算法在少数类的召回率和总体分类性能上都具有一定的优势。(2)基于K-Means和中心极限定理的过采样策略。对现有的重采样算法进行研究分析可以发现,合成过采样策略大致可以分为分组、合成这两个步骤,根据这个模式本文提出新的算法。K-Means聚类为该算法的分组策略,将相似的少数类样本进行分组。合成方法借助了中心极限定理,估计了分组中样本特征值的分布后再进行人工合成。通过分组-合成模式降低了新样本点出现在其他类判定范围的概率,也消除了数据的不平衡性,提升了分类的效果。算法在实验中显示出了良好的效果,在达成极高召回率的同时也达成了较高的准确率和整体性能。(3)多策略结合解决非平衡数据集的机器学习问题。这一部分将本文提出的两种过采样方法与提升算法结合,同时在数据层面和算法层面对不平衡数据集的分类性能进行优化。重采样算法能够增加分类器对少数类的分辨能力,而提升算法则能够极大提高分类器的整体精度,结合二者的优势可以得到效果极佳的分类模型。实验采用了以基尼系数决策树为弱分类器的提升算法,实验结果显示了多策略结合算法的优秀性能。
其他文献
茶树(Camellia sinensis)是一种重要的经济作物,其特有的次生代谢产物是茶叶品质和健康的重要基础,这些特征次生代谢产物有茶氨酸,多酚,生物碱,维生素和矿物质等等,负责这些特征成分的基因的解码是遗传改良和代谢工程应用研究的重要基础,然而目前只有一小部分茶代谢产物相关的基因在功能上得到了鉴定,大量其他茶树农艺性状(抗寒,抗病虫害等)相关基因的功能解析仍在探索中。目前研究茶树基因(蛋白质)
目的:英夫利西(IFX)和硫唑嘌呤(AZA)是克罗恩病(Crohn’s disease,CD)最常用的治疗药物,本文通过Meta分析评估IFX联合AZA(IFXpA)对CD的有效性及安全性。方法:计算机检索中国
竹子作为一种重要的森林资源,在全球范围内有着广泛的分布,具有较大的生态价值、经济价值和社会价值。毛竹(Phyllostachys edulis)则是竹类资源中分布最广和经济价值最高的竹种。在毛竹的生长过程中,毛竹笋的高生长信息被视为反映毛竹长势和产量的重要指标,是毛竹生长发育研究的重要内容。长期以来,毛竹长势信息的获取主要通过人工观测方法来实现,但是该方法费时费力且主观性强,难以实现大范围内的实时
抑郁症是一种常见的精神疾病,许多研究表明基于益生菌可以调节肠道菌群-肠-脑轴,从而在治疗抑郁症方面发挥重要作用。双歧杆菌是存在于机体肠道中的一种有益菌。因此,本论文将对双歧杆菌W112改善抑郁小鼠行为的机制进行初步研究,得到以下结果。1.通过行为学实验评估双歧杆菌W112的抗抑郁效果。结果表明,W112使抑郁小鼠在旷场实验中运动活性增加(p<0.05),强迫游泳中不动时间减少(p<0.
从古至今,中国地震频发,对中国的经济水平和人们的生命安全都造成了很严重的损害。大型地震发生后,人员伤亡会很严重,这时灾区就需要大量的应急物资。但是由于地震发生的时间通常都很快,应急部门无法在第一时间得知灾区的伤亡情况,也就无法确定应急物资的需求,这样应急物资在配送时便会失去准确性。供应量太大会造成物资的严重浪费,而供应量太小又无法满足灾区人们对物资的需求。因此,地震发生之后及时准确地预测出灾区对应
目的:探讨磁共振扩散张量成像(diffusion tensor imaging,DTI)各参数在动态评估创伤性脊髓损伤(traumatic spinal cord injury,TSCI)大鼠高压氧(hyperbaric oxygen,HBO)治疗
一品红(Euphorbia pulcherrima Wild),大戟科大戟属植物,原产于墨西哥塔斯科地区的某种变色型观叶植物。因气候问题,一品红引入我国后,在国内大部分的地区,只适宜在温室中栽培
大气颗粒物中的微生物成分逐渐引起学术界的研究热情,其群落结构、多样性、差异性以及致病性等都是深入了解大气颗粒物微生物污染的重要切入点。本文以湖南大学为采样点进行长沙市大气颗粒物中细菌群落的个例研究,本文从以下三个方面开展了研究工作:首先,本次研究中的大气颗粒物均使用Anderson8级非生物阶式撞击采样器进行收集。采样点为长沙市岳麓区湖南大学,采样时间为2017年四个季节,按粒径和季节将颗粒物分为
化石燃料的大量消耗带来了严重的环境污染和迫在眉睫的能源危机。发展可持续清洁能源是应对这些问题的有效途径。氢气由于其高能量密度、无污染和高元素丰度,被认为是一种很有前途的清洁能源载体。酸性电化学水裂解被认为是高效生产高纯度氢气的很有前景的绿色制氢技术。然而电化学水裂解往往有较大的析氧反应过电位,这导致大量额外能耗。因此,迫切需要开发出具有优异电催化性能的催化材料作为阳极来降低反应能垒,降低反应过电位
随着社会经济水平不断提高,汽车保有量的快速增加带来交通事故的大量增长。作为交通参与者中易受伤害群体之一,行人在发生交通事故时往往会受到严重伤害甚至死亡。行人检测作为车辆驾驶辅助系统核心功能之一,能够有效降低行人伤亡风险,具有保护行人安全的重要意义,目前行人检测已经成为汽车产业界和科研机构研究的热点之一。本文在对目前基于视觉的行人检测算法进行深入研究的基础上,提出了一种复杂场景中驾驶辅助系统实时行人