基于集成学习的不平数据分类方法的研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户：wangxiaofu2008

【摘要】

：

近年来，不平衡数据的分类问题经常出现在各种分类和预测问题中，已经成为数据挖掘和机器学习领域中的一个重要研究方向。不平衡数据通常是指数据集中不同类别样本在数目上的不平

【作者】

：

高锋

【机构】

：

华东理工大学

【出处】

：

华东理工大学

【发表日期】

：

2017年期

【关键词】

：

数据分类集成学习入侵检测过采样方法概率分布估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，不平衡数据的分类问题经常出现在各种分类和预测问题中，已经成为数据挖掘和机器学习领域中的一个重要研究方向。不平衡数据通常是指数据集中不同类别样本在数目上的不平衡。多数传统的分类算法以整体的分类精度作为评价准则，倾向于将样本划分为多数类，导致少数类的识别率不高。这种现象广泛分布在各个领域中，如入侵检测、医疗诊断及人脸年龄估计等，我们通常更加关注的是少数类分类情况。所以研究如何更加有效地识别少数类样本，设计恰当的不平衡数据分类算法具有重要的价值和实际意义。　　目前不平衡数据的分类方法通常可以分为两个层面:数据层面和算法层面。数据层面上的方法是通过对数据进行预处理来改变样本类别间的不平衡性，如随机过采样、SMOTE、RWO等。算法层面上是改进前人的算法或者重新设计新的算法，如代价敏感学习、主动学习、集成学习等。　　与其他算法相比，集成学习的优势在于有着更高分类性能和更低的泛化误差，在不平衡数据的分类问题中具有天然的优势。本文的主要研究内容是以基于集成学习解决不平衡数据分类问题为核心展开的，分别从数据和算法两个层面进行改进并提出新的方法。论文做了如下几个方面的工作:　　(1)首先在数据层面上，分析并总结了SMOTE和RWO这两类不同的过采样方法，并对针对SMOTE和RWO存在的不足，提出了一种基于概率分布估计的过采样方法PDEO。然后将其应用于Boosting方法中并提出基于概率分布估计过采样的集成学习算法PDEOBoost。通过在多组UCI数据上的实验，证明了PDEO和PDEOBoosts的优越性。　　(2)在算法层面上，对集成学习做了深入研究。考虑到集成学习在不平衡数据分类问题中的优势，结合不平衡数据邻域的分布特征，提出一种新的解决二类不平衡数据分类问题的集成算法DE-NHS。通过对比实验表明，DE-NHS能够有效地提高少数类的识别率和整体的分类性能。　　(3)研究了常用的多分类策略。针对现实生活中普遍存在的多类不平衡数据现象，将基于二类分类的DE-NHS方法拓展到多类分类MUDE-NHS。在UCI数据集上的实验结果表明，MUDE-NHS能够有效地解决多类不平衡数据的分类问题。　　(4)对入侵检测的方法进行了研究。结合MUDE-NHS方法在多类不平衡数据分类中的优势，将MUDE-NHS应用于入侵检测中去。实验结果表明该方法显著的提高了入侵检测的分类精度。

其他文献

基于寄生行为的改进萤火虫算法及其在柴油调合中的应用

柴油调合作为柴油生产的关键步骤，其调合结果的好坏不仅关系到柴油的质量、工厂的经济效益，还关系到工业、农业以及其他领域的发展。实际生产中柴油的调合通常根据调合配方，将各

学位

柴油调合寄生行为平衡排序改进萤火虫算法

事件触发分布式预测控制方法研究

实际中广泛存在着一类由众多相互关联子系统组成的大型系统，对于这类系统，传统的集中式控制容易受到系统规模和计算负担的限制，并且系统的可靠性与灵活性不高。分布式控制将整体

学位

分布式预测控制事件触发机制递推可行性协调策略控制器

乙烯裂解炉炉群调度的多目标建模与优化

裂解炉是工业乙烯生产的主要装置，决定了乙烯生产的收率和效益等指标，在实际生产中，多台裂解炉往往同时运行以裂解多种原料，此外由于裂解炉炉管容易形成焦炭，会影响到裂解产物的收

学位

乙烯裂解炉原料调度多目标进化非线性规划非支配排序遗传

基于自调整比例因子模糊控制的抽油机节能控制系统研究

常规游梁式抽油机由于结构简单、操作放便、维护简便、维修费用低廉等特点，一直占据着有杆采油系统地面设备的主导地位。在选择游梁式抽油机时，电动机的装机容量一般选得比较大

学位

石油工程抽油机节能控制系统自调整比例因子模糊控制

液滴指纹图的数据采集及处理软件的开发

光纤电容液滴分析技术通过获取液滴在成长过程中光纤信号随液滴体积的变化规律,得到“液滴指纹图”。它反映了液体密度、粘度、折射率、表面张力等多种特性,可以作为鉴别两种

学位

液滴指纹图数据采集滤波归一化波形分析

基于改进型量子遗传算法的活性污泥模型参数校正

国际水质协会IAWQ推出活性污泥模型以来，凭借其处理工艺简单、运行效率高、鲁棒性强和处理成本低等优点，得到了广泛的发展和应用。目前世界上很多国家和地区采取了活性污泥处理

学位

污水处理活性污泥参数校正个体浓度改进型量子遗传算法

装配机器人系统的工件定位和抓取装配研究

装配几乎是所有工业生产的必要环节，也是工业生产花费最大的环节之一，在制造领域占有重要地位。装配机器人的出现使得装配系统在降低成本的同时极大提高了系统的运行效率。而近

学位

装配机器人目标检测三维工件定位图像矩抓取点提取

面向微光/红外融合的彩色夜视图像场景解析方法研究

彩色夜视技术可以将微光/红外双谱图像融合成一幅适于人眼观察的彩色图像，而恰当的场景解析方法能够对彩色夜视图像的内容做出自动化分析，进一步减轻人眼的观测负担，对实现夜晚

学位

彩色夜视图像微光/外双谱图像图像融合场景解析非参数模型深度学习神经网络

基于3D仿真机器人系统的学习控制与算法研究

有关多智能体系统和分布式人工智能的研究已经成为近年来学界研究的重点。机器人世界杯(Robocup)是一个典型的多智能体系统,它具有动态的环境。由于每个队员都可以看作是一个

学位

多智能体层结构机器人仿真足球仿真服务器球员决策算法

仿生优化算法的研究与应用

优化是一个古老的课题,已存在许多经典数学方法可以解决优化问题,但是随着科学技术的发展,经典的数学优化方法已经不能满足需要,因此出现了仿生优化算法。仿生优化算法是基于

学位

粒子群算法遗传算法鱼群算法拥挤度动态传感器网络交通灯控制

基于集成学习的不平数据分类方法的研究

与本文相关的学术论文