基于集成学习的不平数据分类方法的研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:wangxiaofu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,不平衡数据的分类问题经常出现在各种分类和预测问题中,已经成为数据挖掘和机器学习领域中的一个重要研究方向。不平衡数据通常是指数据集中不同类别样本在数目上的不平衡。多数传统的分类算法以整体的分类精度作为评价准则,倾向于将样本划分为多数类,导致少数类的识别率不高。这种现象广泛分布在各个领域中,如入侵检测、医疗诊断及人脸年龄估计等,我们通常更加关注的是少数类分类情况。所以研究如何更加有效地识别少数类样本,设计恰当的不平衡数据分类算法具有重要的价值和实际意义。  目前不平衡数据的分类方法通常可以分为两个层面:数据层面和算法层面。数据层面上的方法是通过对数据进行预处理来改变样本类别间的不平衡性,如随机过采样、SMOTE、RWO等。算法层面上是改进前人的算法或者重新设计新的算法,如代价敏感学习、主动学习、集成学习等。  与其他算法相比,集成学习的优势在于有着更高分类性能和更低的泛化误差,在不平衡数据的分类问题中具有天然的优势。本文的主要研究内容是以基于集成学习解决不平衡数据分类问题为核心展开的,分别从数据和算法两个层面进行改进并提出新的方法。论文做了如下几个方面的工作:  (1)首先在数据层面上,分析并总结了SMOTE和RWO这两类不同的过采样方法,并对针对SMOTE和RWO存在的不足,提出了一种基于概率分布估计的过采样方法PDEO。然后将其应用于Boosting方法中并提出基于概率分布估计过采样的集成学习算法PDEOBoost。通过在多组UCI数据上的实验,证明了PDEO和PDEOBoosts的优越性。  (2)在算法层面上,对集成学习做了深入研究。考虑到集成学习在不平衡数据分类问题中的优势,结合不平衡数据邻域的分布特征,提出一种新的解决二类不平衡数据分类问题的集成算法DE-NHS。通过对比实验表明,DE-NHS能够有效地提高少数类的识别率和整体的分类性能。  (3)研究了常用的多分类策略。针对现实生活中普遍存在的多类不平衡数据现象,将基于二类分类的DE-NHS方法拓展到多类分类MUDE-NHS。在UCI数据集上的实验结果表明,MUDE-NHS能够有效地解决多类不平衡数据的分类问题。  (4)对入侵检测的方法进行了研究。结合MUDE-NHS方法在多类不平衡数据分类中的优势,将MUDE-NHS应用于入侵检测中去。实验结果表明该方法显著的提高了入侵检测的分类精度。
其他文献
柴油调合作为柴油生产的关键步骤,其调合结果的好坏不仅关系到柴油的质量、工厂的经济效益,还关系到工业、农业以及其他领域的发展。实际生产中柴油的调合通常根据调合配方,将各
实际中广泛存在着一类由众多相互关联子系统组成的大型系统,对于这类系统,传统的集中式控制容易受到系统规模和计算负担的限制,并且系统的可靠性与灵活性不高。分布式控制将整体
裂解炉是工业乙烯生产的主要装置,决定了乙烯生产的收率和效益等指标,在实际生产中,多台裂解炉往往同时运行以裂解多种原料,此外由于裂解炉炉管容易形成焦炭,会影响到裂解产物的收
常规游梁式抽油机由于结构简单、操作放便、维护简便、维修费用低廉等特点,一直占据着有杆采油系统地面设备的主导地位。在选择游梁式抽油机时,电动机的装机容量一般选得比较大
光纤电容液滴分析技术通过获取液滴在成长过程中光纤信号随液滴体积的变化规律,得到“液滴指纹图”。它反映了液体密度、粘度、折射率、表面张力等多种特性,可以作为鉴别两种
国际水质协会IAWQ推出活性污泥模型以来,凭借其处理工艺简单、运行效率高、鲁棒性强和处理成本低等优点,得到了广泛的发展和应用。目前世界上很多国家和地区采取了活性污泥处理
装配几乎是所有工业生产的必要环节,也是工业生产花费最大的环节之一,在制造领域占有重要地位。装配机器人的出现使得装配系统在降低成本的同时极大提高了系统的运行效率。而近
彩色夜视技术可以将微光/红外双谱图像融合成一幅适于人眼观察的彩色图像,而恰当的场景解析方法能够对彩色夜视图像的内容做出自动化分析,进一步减轻人眼的观测负担,对实现夜晚
有关多智能体系统和分布式人工智能的研究已经成为近年来学界研究的重点。机器人世界杯(Robocup)是一个典型的多智能体系统,它具有动态的环境。由于每个队员都可以看作是一个
优化是一个古老的课题,已存在许多经典数学方法可以解决优化问题,但是随着科学技术的发展,经典的数学优化方法已经不能满足需要,因此出现了仿生优化算法。仿生优化算法是基于