【摘 要】
:
模式分类是数据挖掘领域的重要研究方向之一。分类器首先对带类标号的训练样本集进行学习,以确定分类器结构和参数,然后再对未知类别的样本进行预测。单个分类器的分类正确率
论文部分内容阅读
模式分类是数据挖掘领域的重要研究方向之一。分类器首先对带类标号的训练样本集进行学习,以确定分类器结构和参数,然后再对未知类别的样本进行预测。单个分类器的分类正确率往往不理想,而组合分类器能取得良好的分类正确率。本文主要研究组合分类器中的AdaBoost算法。在该算法中,每个样本被赋予一个权重,这个权重代表该样本被选入训练子集的概率。迭代过程中,如果一个样本前一次被正确分类,那么它的权重就会增大,反之权重减小。通过这种方式,AdaBoost算法聚焦于那些难分的样本,从而提高困难样本的分类正确率。本文使用AdaBoost算法对不平衡数据集进行分类。本文用Fisher、伪逆、Naive Bayes和C4.5这4种分类器作为AdaBoost的基分类器,实验对比分析了这4种组合分类器对少数类分类正确率的影响,以及对所有样本AUC性能的影响,得到了一些有益的结论。本文对AdaBoost算法进行了改进,不再固定训练子集的大小,而是根据每个样本的权重和训练样本集容量的乘积上取整结果,决定每个样本被选入新训练子集的次数。一方面,使得训练子集都包含了所有的样本,没有信息遗失,提高了分类性能。另一方面,避免了训练子集中某一类别样本数目很多,其它类别样本数目很少甚至没有的情况,从而有效避免了过拟合和偏见问题。
其他文献
本论文基于一汽大众奥迪经销商培训管理项目,该项目的主要目标在于帮助全网络经销商更好的服务客户,提升服务品质,充分利用培训资源,发挥以培训为主、考核认证为辅的管理宗旨,将培
为了解有机碳(OC)和元素碳(EC)在北京大气颗粒物中的季节变化、粒径分布和来源,于2010年3月—2011年2月采用惯性撞击分级采样器采集大气颗粒物样品,热光碳分析仪测定其中有机
利用聚类分析和演替度分析方法,研究青海湖鸟岛地区湖水退缩形成的盐碱地植物群落类型及其演替过程.结果表明,青海湖鸟岛湖水退缩形成的盐碱地植被有四大主要群落类型为碱蓬
本文以华东数控公司的数控设备实际研发需求为应用背景,论述相应的数控设备综合试验软件模拟与测试平台的设计和实现。本文按照软件工程的开发流程进行组织,首先概述技术基础
低碳经济作为一种低能耗、低污染、低排放的经济模式,其发展必须以先进的技术手段做支撑,而先进技术手段的大规模应用又以新知识领域的不断拓宽,新知识的不断生产、传播和应用为
目的 评价秩和比法在医疗工作质量综合评价应用中的可靠性。方法 在分析比较的齐同原则和一定数量原则下 ,对秩和比法、层次分析法、TOPSIS法、系统聚类法的评价结果进行比
医保管理是医院管理的重要工作,关系到医院的生存和发展。该文主要介绍了江苏省中西医结合医院医保管理的几点经验,探讨了其中的不足之处,并提出相应对策思考。
气-液搅拌反应器广泛用于生物化工、污水处理、石油化工、制药、食品工业等过程工业中。目前对气-液搅拌釜的研究主要集中在宏观特性的实验研究以及单层或双层桨搅拌釜的数值
海底地形作为海洋环境的主要组成部分,在海洋开发领域具有重要价值。多波束测深技术是当代海底地形勘测的一项高新技术,目前已成为海洋监测与海底资源调查的最主要手段之一,被广
煤炭生产管理是一个管理比较粗放的生产领域,这是由它的生产制约因素和产品质量要求所决定的,然而随着煤炭企业管理思想、组织结构、设备技术的不断发展和创新,煤炭生产特别