基于过采样技术的不平衡数据分类研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:lizhou555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展尤其是计算机硬件设备的进步,海量数据集存储和处理技术已经融入各行各业,其中数据挖掘是行业中常用的数据处理技术,其通过数据处理和模型构建为决策者提供更多的决策信息。在使用数据挖掘处理数据和构建模型的过程中,经常会遇到不平衡分类问题,即在分类问题中某些类的样本数量多于其它类的样本数量。然而传统的分类算法假设数据分布是大致平衡的,因此在处理不平衡数据集时难以有良好的效果。本文针对不平衡数据的分类问题,对数据层面的改进方法做了深入研究。本文的主要工作如下:(1)对目前经典的过采样算法做了详细的介绍和分析。介绍了SMOTE,Boderline-SMOTE和ADASYN这三种经典过采样算法的原理,针对每个算法的特点分析了其各自的优缺点。通过在多个数据集上的实验结果验证了以上分析。(2)为了增强分类边界同时减少噪声的生成,提出基于Lévy分布的过采样算法LOTE。该算法将Lévy分布融合到采样算法中,根据少数类样本所处的位置,利用Lévy分布设置新样本的密度分布。处于边界的样本对应Lévy分布的最高点,使得在边界合成的新样本密度最大,有利于增强分类边界。靠近多数类的样本对应Lévy分布斜率较小的位置,因此该处的新样本密度相对于边界样本略有减小,有利于减少噪声。由于靠近少数类的样本相对安全,因此其对应Lévy分布斜率较大的位置,此处的新样本密度相对于边界样本有较大减小,减少无效样本的生成。实验表明该算法可以有效地提高分类器的性能。(3)针对数据集线性不可分时采样算法容易生成噪声的问题,提出了基于核方法的过采样和LOTE结合的过采样算法(KLOTE)。基于核方法的过采样是将新样本的生成问题转化为数据集Gram矩阵的扩展问题,使得新样本的合成可以在特征空间进行。将LOTE算法和核方法结合,可以在特征空间中对少数类样本的位置进行判断,即判断样本是边界样本,靠近多数类的样本还是靠近少数类的样本,从而更准确地构造新样本的密度分布,充分发挥LOTE增强分类边界同时减少噪声生成的优势。通过实验说明该算法对分类器性能的提升优于其它算法。本文针对不平衡数据的分类问题,从过采样的角度做了改进,提出了LOTE算法和KLOTE算法,其中LOTE算法使用Lévy分布构造过采样中新样本的密度,相对于已有算法可以在增强分类边界的同时减少噪声的生成。KLOTE算法是LOTE算法在特征空间中的扩展,对于在原始输入空间线性不可分的数据集,该算法可以有效提升分类器的性能。
其他文献
目的探讨大学生心理健康教育的重点人群、内容和形式。方法 2016年11月,通过整群随机抽样5131名学生纳入调查,采用中国大学生适应性量表和自行设计的校园生活满意度、心理健
测试作为教育评价方式中最为常见且较为重要的一种方式,其主要工具试卷在一定程度上影响着测试结果,尤其是试卷的质量会对测试质量产生重大影响。目前已有专家建构了有关试卷质量的评价指标体系,但针对小学阶段学业水平试卷的指标体系并不多见。本研究试图构建小学阶段学业水平试卷质量指标体系,以期对把控试卷质量、提高学业评价水平以及促进小学生进一步发展起到一定积极作用。研究突出学科特色,将小学语文学业评价试卷作为体
近年来 ,食品安全、食品供应链管理已成为国内外研究的热点。本文介绍了食品供应链产生的背景和在不同阶段的四种类型 ,并分析了食品供应链的电子商务模式 ,以及基于质量安全
第三方警务理论因应了社会控制转型背景下的世界警务发展趋势,对完善犯罪防控理论、指导社会治安防控实践具有重要借鉴意义。充分论证第三方警务理论基础,厘清第三方警务组织
<正>近年来,国际金融危机对一些发达国家的冲击,客观上为新兴经济体跨国公司崭露头角创造了难得的机遇。在这一背景下,中国企业"走出去"取得了积极进展。但总体来看,中国跨国
作为信息技术与知识产权相结合的产物,数字知识产权与传统的知识产权相比较,在传播特征、存储方式和侵权方式等方面,有其特有的规律性。新一代信息技术为体育知识产权保护带来机
目前,随着时代的发展,高校心理咨询量逐年增长,咨询者对心理咨询过程中的保密问题也变得越来越重视。当代高校心理咨询也出现了一些困境,在高校中,存在着泄漏咨询者隐私的现
现在越来越多的轿车采用了自动变速器,它的内部构造非常精密,通常主要是由液力变矩器、离合器、油道和油泵等零件组成.而自动变速器油(Automatic Transmission Fluid)简称ATF
"枯山水"对日本的现代景观设计乃至世界的景观设计发展都有着深远的影响。本文通过介绍几位著名日本现代景观设计师的代表性作品,分析他们如何将传统的枯山水艺术,通过自己的
目的比较老年股骨颈骨折患者实施双极股骨头与全髋关节置换术后的疗效。方法选用笔者科室2009年5月~2013年5月收治的196名老年股骨颈骨折的患者,分别实施双极股骨头与全髋关