一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:chichizhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】解决二分类任务中因类间数据不平衡导致少数类分类准确度低的问题。【方法】提出一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法(ECFCM),即对多数类样本进行基于FCM聚类的欠采样,将聚类中心样本与全部少数类样本组成平衡数据集;利用基于Bagging的集成学习算法对平衡数据集进行分类。【结果】在4组不平衡数据集上的Matlab仿真实验结果表明,ECFCM算法的Acc、AUC和F1提升幅度最高为5.75%(Spambase), 13.84%(Glass2)和7.54%(Spambase)。【局限】本文采用标准数据集验证ECFCM算法的有效性,当采用实际应用中的不平衡数据时,需要有针对性地研究不平衡数据分类算法。【结论】ECFCM算法分类性能良好,在一定程度上有利于提高不平衡数据中少数类的分类准确度。
其他文献
<正>急性Stanford A型主动脉夹层是一种病死率高,并发症多的外科危重症。对于A型夹层的治疗,手术方式与时机的选择十分重要,目前还存在争议。目前常用的手术方式为升主动脉置
本文阐述了当代汽车开发过程中的重要环节-数据控制模型的概念、组成部件、功能、制造过程和方法及其测量评价展示和最终验收的全过程,对于中国汽车工业自主开发具有一定的参
万历以来,面对内忧外患,官员和学者编纂军事著作蔚然成风.徐日久就是其中一位.他编纂的《五边典则》辑录了从明太祖到穆宗历朝实录及兵部档案中有关边防方面的政治、经济、军
激光技术是21世纪的先进科学技术,在现代产业中展示了突出的优势,广泛的应用在运输机械、钢铁、航天、电子、医疗、国防等各个行业。以将激光作为能源的现代激光制造技术为核
<正>随着社会的发展,科技在教育教学中所发挥的作用越来越大,传统的多媒体教室相比科技的发展速度已明显落后。教师和学生在平时生活或工作中所使用的信息化工具开始以智能手
乳杆菌(Lactobacillus)是工业上重要的乳酸菌,应用于许多动植物源性发酵食品的生产中。由于它们的代谢特性和工艺学特性,需要在乳杆菌发酵食品生产过程中对它们进行安全和质量
随着教育体制深入改革,社会主义市场经济不断发展,高校逐渐改变了过去计划经济仅依靠政府财政拨款办学的局面,高等学校办学经费的来源趋于多元化。高校财务管理从理念、目标到手
生态学是研究生物与环境间相互关系的学科,具有较强的综合性、理论性和应用性。在生态学飞速发展和地方本科院校实行应用转型双重背景下,传统的教学模式已无法满足新形势下的
混凝剂投加量自动控制技术在水处理厂中发挥着重要的作用。主要阐述几种常用的混凝剂投加量自动控制方式,即:现场模拟试验法、烧杯试验法、数学模型法、单因子控制方式。分析认
背景:异基因造血干细胞移植的本质是免疫细胞的移植,其治疗作用主要依靠移植物抗白血病效应,但其伴随的移植物抗宿主病增加了患者的死亡率,影响疗效.目前研究者提出了多种减轻