面向不均衡数据集中少数类样本细分的过采样算法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zkhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘研究中,分类问题一直是备受研究学者关注的方向。传统的分类算法对样本类别分布均衡的数据集进行分类往往能够取得较好的分类效果。但在实际应用中,通常数据集的类别分布不平衡,即当数据集中某一类别样本的数目明显多于其他类别样本时,传统的分类算法往往不能够很好的对这种数据集分类。由于不均衡数据集中,各个少数类样本相对于决策边界的分布各不相同,且越靠近决策边界的样本越易被错分,对分类器而言便更具有学习的价值,因此,本文提出面向少数类样本细分的过采样算法,按照少数类样本相对于决策边界的分布差异,将少数类样本集划分为多个细分,再对不同细分做不同的过采样处理,更加合理有效地达到多数类与少数类均衡的目的。本文学习了已有的经典过采样算,总结分析各自的优点与不足,并以面向少数类样本的细分为基础,提出如下改进:1.少数类样本相对于决策边界的分布具有差异性,经典过采样算法通常并未对它们做区别处理,或者仅处理部分样本的信息。本文按照少数类样本的k近邻分布,将其划分至DANGER、AL_SAFE、SAFE三个细分中,对不同细分中的样本使用不同的采样策略进行处理,有效的利用不同细分的所有少数类样本信息;2.AL_SAFE细分中样本依然靠近决策边界,但数量较多,因此需要减少在原本少数类样本分布稠密的区域的采样数量,增大稀疏区域采样数量。少数类样本的k近邻中,同类样本数越多,表示其支持度越高,选择概率越小。利用轮盘赌进行选择,使得采样范围分布更加均匀。上述两步称之为SD-ISMOTE算法。3.上述算法在对已有少数类样本细分后,仅从细分级别的粒度进行过采样操作,细分内部样本分布不均衡的情况并未处理。为此,使用K-均值聚类方法对每个细分聚类,形成若干个簇再从簇的级别进行过采样,合理确定每个细分中的每个簇的采样数量,以此解决细分内部样本分布不均衡的问题;4.在对AL_SAFE细分样本处理过程中,由于使用已有的采样策略仅能在初始点间的距离为半径的球体内采样,不能更大限度将决策边界向多数类方向推移。因此,增大采样随机因子,使得新样本的分布范围更靠近决策边界。以上两步称之为SD-ISMOTE2算法。从UCI数据集中选取不均衡数据分类常用的数据集用于实验验证,通过实验结果可以得出,改进的算法能够获得较好的分类性能。
其他文献
公共服务动机作为一种新的动机理论,目前已成为国际管理学界研究的热点。近年来,有关公共服务动机与工作满意度关系的研究已取得一定的进展。然而,学者就公共服务动机对工作
当前,随着科技的发展和工业化进程的加快,空气污染也越来越严重,大气环境治理已经成为当今世界的热点和难点,大气环境的治理离不开对大气边界层结构的研究。大气边界层与地面相互作用,且大气与地面之间发生能量与动量交换导致大气边界层高度的变化,边界层高度在几百米到1-2千米之间变化。大气边界层的高度决定了气溶胶或者是大气分子的扩散范围。因此,大气边界层高度不仅是大气边界层结构的一个重要特征,而且是气候模式和
绿色节能建筑是一项复杂繁琐的工程,涵盖节能、环保、运营管理等方面。以断优化绿色施工方案根本,提出施工管理现状。基于价值工程作为经济、技术的结合体,对绿色建筑方案的
根据水泵轴连轴承的特性,设计两种不同结构的试验装置,采用台架模拟试验和强化试验方法,对产品寿命进行考核,从试验数据的处理结果看,两种不同的试验方法得到试验结果相近。
共享单车既创造了巨大的多重效益也令人诟病,如停放杂乱、无限投放、不文明或违法行为等公共困境极大影响社会公共利益。原因在于市场配置资源与政府调控之间出现了矛盾,企业
水作为人们赖以生存的物质之一,不仅与我们的生活息息相关,更与我们所生活的环境密不可分。在历史的进程中,随着对水形态的处理技术不断发展,人们对水形态的运用也越来越成熟
财政转移支付法律制度具有均衡财政的重要作用。它可以通过资金再次分配的方式来实现各地财力的均衡发展,弥补各个地区财力发展的不足的问题,进一步实现公共服务均等化,以促
由于发达国家要素市场化水平较高,且有着丰富的对外投资经验,企业对外直接投资行为较少受到要素扭曲的影响。然而,当前中国正处于经济转型时期,要素市场的发展明显滞后于产品市场,要素市场扭曲的问题较为突出。以资本市场为例,此前经历的一系列改革措施虽然取得了一定成效,但与发达经济体相比,目前中国的资本市场依旧是不完善的,资本扭曲的现象仍然存在,由此也造成了资本配置的不合理和利用效率的降低。这就与当前中国对外
为实现高机动工况下车辆状态的可靠估计,提出了一种基于改进的扩展卡尔曼滤波的车辆运行状态估计方法.首先建立基于非线性车辆动力学的系统状态模型,该模型分别以低成本的车载轮
随着弹道导弹分导技术的日趋成熟,多拦截器自主拦截多进攻弹头的技术亟待解决。另外,大气层外拦截弹拦截弹道式进攻弹时,由于二者相对速度极快,需要拦截弹做出快速响应,并最