面向不平衡数据集融合Canopy和K-means的SMOTE改进算法

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:louisvu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,
其他文献
基于纯电动汽车安全及续驶里程需求,轻量化设计被摆在突出的位置,而先进高强度钢板在汽车车身的轻量化与耐撞性设计中的应用越来越广泛。本文采用热成型超高强度钢板代替普通
当前在我国的工程机械电气控制系统当中,运用CAN-BUS总线技术则起步较晚。但随着时间的推移以及科学技术水平的不断提升,逐渐认识到CAN-BUS总线技术能够使得工程机械协同工作能
本工作用OMA系统和高分辨单色仪同时测量了硅烷激光等离子体和放电等离子体的发光谱以及两种等离子体条件下的SiH A~2△——X~2Ⅱ跃迁0——0带光谱。讨论了SiH 0——0带光谱
【摘要】阅读是每一个学生学习生涯中重要的学习方法,阅读能力是知识经济时代重要的能力之一。高职院校要从学生阅读兴趣的培养,导读教育的强化,阅读方法的传授入手,提高学生的阅读能力,确保其获得终身学习的能力和可持续发展的潜力。  【关键词】高职学生;阅读能力;阅读兴趣  【中图分类号】G712 【文献标识码】A  【文章编号】1671-5969(2007)13-0103-02    阅读是人类社会生活中
在复杂工况和直线要求较高的情况下,为满足农机高精准性、高可靠性的要求,实现农用机械的直线同步行驶,提出一种同步阀+电磁比例阀的液压驱动底盘。运用等同控制,控制器设计
本文简单介绍了一种新的估算三核准分子辐射寿命的公式。利用这公式计算了三原子准分子辐射寿命,计算结果与实验值非常吻合。
塔木素地区位于内蒙古阿拉善右旗,是高放废物地质处置黏土岩处置库场址的预选区。预选区内大部分地区被第四系地层覆盖,发育多条断裂构造,断裂构造第四纪以来的活动性对于预
目的 探讨项目教学法在内科护理教学中的应用效果.方法 随机选取2014年入读我校护理专业的4个班级,新生入学时随机分班,年龄在16~18岁,均为女生.将6班、7班(共147人)作为对照组
为了探究大规模灾害救援初期物资不足、运输能力有限情况下的应急物资调度问题,引入需求迫切度和满意度的概念,构建了多储备点、多受灾点的多种物资的调度模型,以最大化受灾
研究了四种国产oxazine类激光染料分别在乙醇、甲醇和1,2二氯乙烷中的吸收特性和荧光特性,测定了他们的荧光寿命和激光转换效率。结果表明这些国产染料是很有实用价值的激光