不均衡数据混合取样分类算法

来源 :燕山大学学报 | 被引量 : 0次 | 上传用户:jingjing0890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对不均衡数据分类决策面偏移导致少数类识别率较低的问题,提出一种混合取样算法。首先计算类样本数的比值 K;然后分别在多数类和少数类中随机选取一个样本,计算该样本的 K-1近邻,以 K 个样本的中心作为新样本;再对剩余的样本重复上面操作,直到所有样本都被处理;最后所得新样本与原少数类样本共同构成新的训练集。该算法在改变样本密度的同时保持了原样本的空间分布,实验结果表明该算法能够提高SVM 在不均衡数据下的分类性能,尤其是少数类的分类性能。
其他文献
第四届全国气象科研(院)所长联席会议于一九九○年九月十三日到十六日在昆明召开。全国三十一个科研(院)所共三十四位代表出席会议。会议受到了各级领导的大力支持。国家气象
结合连续弹性理论和第一性原理方法,对氮化铝晶体的热膨胀系数和高温弹性系数进行了理论计算。计算结果表明,当温度高于500 K时,六角和立方氮化铝的热膨胀系数随温度升高呈线
作者研究了水库汛期分期设计洪水计算中关键技术-分期洪水频率与重现期关系。经理论分析和实际计算后得出:(1)采用分期洪水频率等于重现期T倒数假定是错误的。由此计算得到的分
应用XRD和Raman表征了掺硼金刚石(BDD)薄膜电极的组织结构,采用循环伏安法(CV)研究了电极的性能以及苯酚在其表面的电化学行为,评价了pH值、阳极电流密度、苯酚初始浓度以及电解
本文将所有基于事务和非基于事务的关联分析称为广义的关联分析.基于事务的关联分析主要依托支持度-置信度框架进行数据挖掘,而非基于事务的关联分析常采用参与度-条件概率框
2007年,唐山港完成货物吞吐量6759万吨,同比增长38.7%。其中,京唐港区完成吞吐量4750万吨。同比增长16.57%;曹妃甸港区完成吞吐量2009万吨,同比增长81.79%。全港完成外贸吞吐量3963万吨,
<正>~~
针对双馈异步风电机组的出力具有随机性这一特点,采用场景分析法对其出力进行分析,使其更有代表性;在此基础上,建立了以电压偏差最小和有功功率损耗最小的多目标无功优化模型
本文介绍了金属矿漏斗在生产作业过程中暴露出的问题;改进方案的探讨和实践过程;总结分析了新型漏斗的创新思路及新旧漏斗性能的比较等。
提出了一种新的基于交织法构造最优低/零碰撞区跳频序列集的方法.此方法构造出的低/零碰撞区跳频序列集合均是移位不等价的,各集合中的序列均达到理论界限,相关区长度在满足