一种基于混合模型的不平衡数据分类算法的研究

被引量 : 0次 | 上传用户:hghyxx_0918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代数据量的高速增长,如何尽可能的对海量数据中的稀有类别数据进行正确的分类变得极为重要。传统的不平衡数据分类算法由于自身分类局限性的影响导致对数据集中稀有类的识别率偏低,达不到实际应用的要求。本文提出了一种基于混合模型的CBP-SVM算法来有效提高对稀有类的识别率。CBP-SVM算法结合了多种方法来处理不平衡数据分类问题:它首先利用粒子群优化算法(PSO)来优化SVM中RBF核函数的参数,并将优化后的SVM作为提升算法(AdaBoost)的弱分类器形成了Boost-PSOSVM算法。在此基础上,再结合级联模型来组成一个混合分类模型来对数据集进行分类。该混合分类模型中,Boost-PSOSVM算法将AdaBoost算法的权重更新规则和分类器集成方式做了一定的修改,并将优化后的SVM作为其弱分类器来提高算法的训练精度。而级联模型通过逐步排除数据集中多数类样本来减小数据集的不平衡度,从而使每个级联结点内的Boost-PSOSVM算法集中精力来对稀有类样本进行训练。实验结果表明,CBP-SVM算法能有效的提高算法的整体分类性能和对于稀有类的识别率。
其他文献
随着时代的发展,社会的进步,互联网时代给信息传播带来的巨大冲击,媒体也越来越深入地渗透到公民生活的各个领域,影响着公民生活的各个方面。新闻媒体对案件的报道自由来源于宪法
目的:观察并探讨应用Bunnell缝合、改良Kessler缝合术修复新鲜跟腱断裂的临床效果。方法:回顾性对我院骨科自2006年至2012年收治的64例新鲜跟腱断裂通过手术治疗后的随访复诊观
休闲是自由精神的象征,是人类发展的深层动力和目标,也是人类社会的福祉所在。关于休闲的论述,古今中外都有非常丰厚的论述,本文试图简要梳理古代中西方的休闲思想以及近来关
期刊
通常所说的项目进度计划管理,就是指以实现工程计划时间为目的,就工程所有环节工作的时效性所展开的有效地管理工作。笔者结合亲身经历和长期的实践经验,浅要分析和研究了石
近年来,随着我国市场经济的持续、高速发展,企业在市场活动中的影响力与日俱增,成为我国现代化建设的中坚力量。作为以利益最大化为根本发展目标的经济主体,企业必须牢牢把握
国家间的合作日益深入以及国际关系的复杂性使得国家之间的竞争已不仅仅是政治、军事等硬实力方面的较量,更重要的是软实力的比拼,其中作为软实力重要部分的国家形象越来越受
应收账款是事业单位的一项重要流动资产,也是事业单位的一项债权,目前我国事业单位存在大量营运资金被应收账款占用等问题,对事业单位资产的保值增值带来了极大地危害。为此,
本文以郑州市地铁车站项目为背景,该工程开挖面积大,周边环境复杂。本文采用工程开工前数值模拟、工程施工中现场监测及风险预测相结合的方法,对工程施工环境风险管理进行研究。
现代物流,作为社会经济生活的重要组成部分,对国民经济和社会发展起着重要的作用。物流网络是现代物流在一定区域的基础上发展起来的空间系统,它的网络式发展对区域经济一体
研究关节测量机优化测量精度问题,目前关节臂测量机在测量技术上还不成熟,对关节臂补偿目前尚难。关节臂测量误差补偿传统的方法是采用最小二乘法求解多个误差项目的最优解、