基于分层抽样的不均衡数据集成分类

来源 :深圳大学学报(理工版) | 被引量 : 0次 | 上传用户:SongSan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法(简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据
其他文献
<正>面瘫有周围性和中枢性之分。周围性面瘫是面神经损伤最常见的类型,其中又以面神经炎为临床所多见[1]。中医学称之为"面瘫"、"口眼歪斜",在我科属常见病种,近年来,我科采
提出了 3大类区域最优人口规模测评模型 ,它们分别是适用于农业文明时代的相对土地资源承载力模型和人口优属度模型、适用于工业文明时代的 Com moner方程反算模型和适用于知
管式铅酸蓄电池可有效避免正极活性物质的脱落,从而大大延长了铅酸蓄电池的使用寿命。管式正极板的制造通常有灌粉、灌粒和挤膏等几种方式。本文重点讨论了挤膏工艺和灌粉工
目的探讨腹腔镜胆囊切除术治疗胆囊结石的临床疗效。方法选择我科收治的112例胆囊结石患者,随机分为观察组和对照组,每组56例。对照组给予常规开腹胆囊切除术。观察组给予腹
本文对当前喀什地区棉花生产中产量和品质不高的影响因素进行了归纳分析,针对性地提出应对策略,以期更好地指导棉花生产。
随着肿瘤医疗和护理学科的飞速发展,肿瘤专科护士的培养已引起临床的高度重视。新加坡国立大学医院肿瘤专科护士培训经验,可为国内的相关培训提供参考与借鉴。
在分析企业竞争力相关理论的基础上,提出"建筑企业可持续竞争力"的动态含义;构建可持续竞争力评价指标体系和投影寻踪评价模型,以实现对建筑企业可持续竞争力的动态评价;选取
目的探讨分析人性化护理模式对产科患者护理满意度的影响。方法选取我院2012年7月至2014年7月妇产科收治的80例产妇,将其分为观察组(40例)和对照组(40例),给予观察组患者行人
铅酸蓄电池矿灯目前已经处于生存的关键点。锂电池矿灯现在已占领市场90%以上,如果酸性矿灯企业或者酸性矿灯蓄电池企业不投入足够的精力,给予足够的重视,可能濒临淘汰。减重
增强活性物质和板栅之间的结合力,可解决电动自行车用蓄电池"早期容量衰减"的问题。经过生产实践,总结出采用合适的固化方法可增强活性物质和板栅之间的结合力,并详细介绍了