基于聚类的少数类样本采样方法

来源 :信息技术与信息化 | 被引量 : 0次 | 上传用户:l907603912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。
其他文献
采用文献资料调研、分析归纳、专家访谈等方法,分析了体育保险中介的内涵及其功能与作用,以北京2008年奥运会为契机来推动体育保险中介的发展,调整体育保险中介市场的发展布
文章依据2007年江苏省全民健身运动会龙狮比赛的相关数据和资料,重点分析江苏省龙狮运动发展的现状和存在问题,并提出需要改革和提高的几点建议,希望以此促进江苏省舞龙舞狮运动
四川省邛崃市南宝山镇“80后”大学生袁红超和丈夫杨彬,毕业后甘愿放弃城市里的工作,回到家乡做了一位“新农人”。发现有机猕猴桃的市场价值后,他们大力发展有机猕猴桃,产品
摘 要: 通信技术和嵌入式技术的迅速发展使远程数据传输有了比较好的解决途径。利用无线网络进行数据传输不受地域限制且传输速度快,收费合理,特别适用于间断的、突发性的和频繁的数据传输。结合GPRS网络的医疗信息预处理系统,研究了GPRS通信模块所应用的PPP、TCP/IP协议,提出了基于单片机的软硬件设计方法及设计方案。
一则'复旦博士,回贵州做医生'的新闻,感动了无数人,微博话题阅读量高达1.4亿。人们纷纷向胡馗伸出大拇指时,《人民日报》也点赞他'反哺生养自己的家乡,这是担当
在信息网络中,其脆弱性直接影响着信息网络的安全程度,复杂的脆弱性分析及其防范已成为当前网络技术研究的重点。本文针对信息网络存在的复杂的脆弱性问题进行了深入的分析探
中国报业产业呈企业化、集团化发展,实现规模化和集约化经营是必然选择。许多报业集团在享受规模化利益的同时。迅速扩张也给企业带来了诸多难题,如何加强集团管控,尤其是财务管
大学生课外体育活动作为体育教学的延伸,是高校体育的重要组成部分,对于进一步增强学生体质、提高学生健康水平、培养大学生终身体育意识和习惯具有重要作用,是实现学校体育
本文提出了一种求解QoS多播路由算法,该算法基于量子遗传算法(Quantum Genetic Algorithm,QGA)和IMST算法(Improved Minimum Spanning Tree,IMST),首先在量子个体上实施量子交叉,这一
用氨苄青霉素处理的菊花茎段,分别放在红光和自然光下的生根和生理作用,目的是探索红光与氨苄青霉素对菊花的生根和生理作用是否有叠加作用。将菊花茎段在不同浓度(100、200、3