一种基于混合策略的失衡数据集分类方法

来源 :电子学报 | 被引量 : 0次 | 上传用户:sese4546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效
其他文献
2001年第一届《人力资本》论坛主题:人力资源与企业发展论坛特点:这是作为国内人力资源综合服务商前程无忧举办的第一届人力资源论坛。从此“人力资本论坛”成为HR业界的标志性
4月24~25日,2018山东省造纸行业年会暨协会第六届理事会第三次会议在德州召开.本次会议由山东省造纸行业协会、景津环保股份有限公司、德州泰鼎新材料科技有限公司主办,山东江
3月2日下午,由济宁慈善总会、济宁总工会、济宁广播电视台、济宁市巾帼志愿者联盟、济宁经济技术开发区党群工作部主办,由济宁广播电视报社、济宁广播电视台图文频道承办的以
熵估计是一种在高层次估计功耗的方法,但已经提出的熵算法无法考虑输入信号在时间上的相关性.本文提出了改进熵的概念,在传统熵中加入条件翻转因子,使改进后的熵能够有效估计
根据已有的投资回报(ROI)分析模型,结合COCOMO度量结果,在充分考虑回归测试时测试程序维护成本的基础上,提出一种软件自动测试成本估算控制模型.该模型首先提出了平均维护代价
本文提出了一种基于单元结构的四端口网络S参数和周期性结构的Bloch理论来分析二维平面分布参数左手结构的新方法,以及基于Bloch波数和Bloch阻抗来判断左右手特性频带的新方法
本文对THz信号的特点、THz信号的产生技术、THz信号的探测技术、THz时域光谱(THz-TDS)技术、THz信号的处理技术,以及THz信号应用技术等当前的研究现状进行了综述,并对未来可能的
在进口废纸被强制性的要求减量甚至未来可能全部禁用下,唯一的替代品就是国产废纸,面对包装纸行业的迅猛发展,国废面临的机遇千载难逢。在环保政策的推动下,2017年国废行业赢
造纸工业中,能耗成本在生产总成本中所占比例越来越高。干燥部其能耗占整个造纸生产过程中的60%,所消耗的蒸汽量占制浆造纸生产过程汽耗总量的65%,所以干燥部的节能降耗成为
金东纸业(江苏)股份有限公司(简称金东纸业)地处长江第三大港——江苏省镇江大港,于1997年5月18日正式成立,占地5.33平方千米,现有员工3000余名,总投资36.1亿美元,年产铜版纸