论文部分内容阅读
在数据挖掘领域中,分类是一种非常重要的技术。现在有很多种分类技术,如贝叶斯,决策树等,这些分类器都是单分类器。人们为了提高分类器的技术做了很多的研究,但是目前单分类器性能的提升已经达到了一个瓶颈,人们根据弱学习和强学习等价性的原理,提出了集成学习的概念。所谓集成,就是将多个不同的分类器,通过一定的方法,利用相关的技术最终形成一个组合分类器。集成学习,即分类器集成也叫做分类器组合,形成的最终的分类器叫做组合分类器,它是组合多个分类器对实例进行分类的系统,其中每个分类器被称为基分类器。实验表明,多分类器组合能显著提高分类器的分类性能。因此对其进行研究,具有重要的理论价值及现实意义。本文首先对集成学习的各个主要研究方向做出了综合性的阐述,包括集成学习的概念,产生原因,生成方式,组合方式以及其意义等。并介绍了加权的一些研究内容,包括可以用来加权的对象等。接下来详细介绍了集成学习中的Boosting技术和Bagging技术。由已有的研究成果的总结可知,集成学习由两个阶段组成:产生多样性的预测模型和对这些模型进行组合。本文针对这两个阶段,对AdaBoost提出两种不同的改进,通过改进其加权方式来进一步提高算法的分类准确率。第一,传统的AdaBoost算法中的每个基分类器的权重是根据对训练集进行分类时所得到的错误率得到的,那么它的权重对于待测实例来说是静态的。如果把每个基分类器给待测实例预测类值时,所取类值的概率加入考虑范围,那么给基分类器所赋的权值就更侧重于待测实例的真实情况。第二,传统的AdaBoost算法在建立基分类器时,需要不断调整训练集中实例的权值,依据的是基分类器对训练集进行分类时的错误率。所有被分错的实例均用同一个权重因子进行加权。但是每个实例被分错时,是以不同的可能性被分错的,然而却被等同看待。如果加权时把分错概率的大小考虑到加权因子中,会使实例的权值更利于建立一个分类精度高的分类器。最后,在Weka系统上实现了这两个新算法以及比较算法,并通过实验进行了多方面的比较。实验结果表明,本文提出的两个算法准确率均优于传统AdaBoost算法,算法性能确实得到了提高。