不均衡数据混合取样分类算法

来源 :燕山大学学报 | 被引量 : 0次 | 上传用户：jingjing0890

【摘要】

：

针对不均衡数据分类决策面偏移导致少数类识别率较低的问题，提出一种混合取样算法。首先计算类样本数的比值 K；然后分别在多数类和少数类中随机选取一个样本，计算该样本的 K－1近

【作者】

：

杜红乐张燕

【机构】

：

商洛学院数学与计算机应用学院

【出处】

：

燕山大学学报

【发表日期】

：

2015年2期

【关键词】

：

支持向量机过取样不均衡数据集欠取样 K 近邻 support vector machine over-sampling imbalanced datase

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对不均衡数据分类决策面偏移导致少数类识别率较低的问题，提出一种混合取样算法。首先计算类样本数的比值 K；然后分别在多数类和少数类中随机选取一个样本，计算该样本的 K－1近邻，以 K 个样本的中心作为新样本；再对剩余的样本重复上面操作，直到所有样本都被处理；最后所得新样本与原少数类样本共同构成新的训练集。该算法在改变样本密度的同时保持了原样本的空间分布，实验结果表明该算法能够提高SVM 在不均衡数据下的分类性能，尤其是少数类的分类性能。

其他文献

第四届全国气象科研(院)所长联席会会议记要

第四届全国气象科研(院)所长联席会议于一九九○年九月十三日到十六日在昆明召开。全国三十一个科研(院)所共三十四位代表出席会议。会议受到了各级领导的大力支持。国家气象

期刊

气象科研林文兰国家气象局科委副主任副局长农业气象气象研究刘余气象现代化建设气象业务现代化

氮化铝热膨胀系数及高温弹性系数的第一性原理研究

结合连续弹性理论和第一性原理方法,对氮化铝晶体的热膨胀系数和高温弹性系数进行了理论计算。计算结果表明,当温度高于500 K时,六角和立方氮化铝的热膨胀系数随温度升高呈线

期刊

高温高压热膨胀系数弹性系数第一性原理氮化铝high temperature high pressure thermal expansion coef

T年一遇水库汛期分期设计洪水问题探讨

作者研究了水库汛期分期设计洪水计算中关键技术-分期洪水频率与重现期关系。经理论分析和实际计算后得出：（1）采用分期洪水频率等于重现期T倒数假定是错误的。由此计算得到的分

期刊

防洪标准重现期频率分期设计洪水

掺硼金刚石薄膜电极阳极电催化氧化苯酚废水研究

应用XRD和Raman表征了掺硼金刚石（BDD）薄膜电极的组织结构,采用循环伏安法（CV）研究了电极的性能以及苯酚在其表面的电化学行为,评价了pH值、阳极电流密度、苯酚初始浓度以及电解

期刊

电化学氧化BDD电极苯酚动力学方程

广义关联分析的蕴涵-约束框架及其挖掘算法

本文将所有基于事务和非基于事务的关联分析称为广义的关联分析.基于事务的关联分析主要依托支持度-置信度框架进行数据挖掘,而非基于事务的关联分析常采用参与度-条件概率框

期刊

广义关联分析蕴涵-约束框架约束的映射合理阈值multi-knowledgetreegeneralized correlation analysis

唐山港去年吞吐量增长38．7％

2007年，唐山港完成货物吞吐量6759万吨，同比增长38．7％。其中，京唐港区完成吞吐量4750万吨。同比增长16．57％；曹妃甸港区完成吞吐量2009万吨，同比增长81．79％。全港完成外贸吞吐量3963万吨，

期刊

年吞吐量唐山同比增长集装箱吞吐量货物吞吐量外贸吞吐量曹妃甸港区

《四川气象》总11—29期要目索引

<正>~~

期刊

四川气象暴雨预报雷达回波特征气候条件分析东风波世界气象日低空急流西南低涡寒潮预报寒潮天气

含双馈异步风电机组的配电网无功优化

针对双馈异步风电机组的出力具有随机性这一特点,采用场景分析法对其出力进行分析,使其更有代表性;在此基础上,建立了以电压偏差最小和有功功率损耗最小的多目标无功优化模型

期刊

配电网双馈异步风电机组无功优化自适应混沌粒子群算法场景分析法distribution network doubly fed induction wi

金属矿漏斗的改造与完善

本文介绍了金属矿漏斗在生产作业过程中暴露出的问题；改进方案的探讨和实践过程；总结分析了新型漏斗的创新思路及新旧漏斗性能的比较等。

期刊

漏斗改造完善

多集合的最优LHZ/NHZ跳频序列集的构造

提出了一种新的基于交织法构造最优低/零碰撞区跳频序列集的方法.此方法构造出的低/零碰撞区跳频序列集合均是移位不等价的,各集合中的序列均达到理论界限,相关区长度在满足

期刊

跳频序列集零碰撞区低碰撞区汉明相关交织理论frequency hopping sequence sets zero hit zone low hi

不均衡数据混合取样分类算法

与本文相关的学术论文