AdaBoost中加权方式的改进

来源 :北京交通大学 | 被引量 : 16次 | 上传用户:seajelly001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域中,分类是一种非常重要的技术。现在有很多种分类技术,如贝叶斯,决策树等,这些分类器都是单分类器。人们为了提高分类器的技术做了很多的研究,但是目前单分类器性能的提升已经达到了一个瓶颈,人们根据弱学习和强学习等价性的原理,提出了集成学习的概念。所谓集成,就是将多个不同的分类器,通过一定的方法,利用相关的技术最终形成一个组合分类器。集成学习,即分类器集成也叫做分类器组合,形成的最终的分类器叫做组合分类器,它是组合多个分类器对实例进行分类的系统,其中每个分类器被称为基分类器。实验表明,多分类器组合能显著提高分类器的分类性能。因此对其进行研究,具有重要的理论价值及现实意义。本文首先对集成学习的各个主要研究方向做出了综合性的阐述,包括集成学习的概念,产生原因,生成方式,组合方式以及其意义等。并介绍了加权的一些研究内容,包括可以用来加权的对象等。接下来详细介绍了集成学习中的Boosting技术和Bagging技术。由已有的研究成果的总结可知,集成学习由两个阶段组成:产生多样性的预测模型和对这些模型进行组合。本文针对这两个阶段,对AdaBoost提出两种不同的改进,通过改进其加权方式来进一步提高算法的分类准确率。第一,传统的AdaBoost算法中的每个基分类器的权重是根据对训练集进行分类时所得到的错误率得到的,那么它的权重对于待测实例来说是静态的。如果把每个基分类器给待测实例预测类值时,所取类值的概率加入考虑范围,那么给基分类器所赋的权值就更侧重于待测实例的真实情况。第二,传统的AdaBoost算法在建立基分类器时,需要不断调整训练集中实例的权值,依据的是基分类器对训练集进行分类时的错误率。所有被分错的实例均用同一个权重因子进行加权。但是每个实例被分错时,是以不同的可能性被分错的,然而却被等同看待。如果加权时把分错概率的大小考虑到加权因子中,会使实例的权值更利于建立一个分类精度高的分类器。最后,在Weka系统上实现了这两个新算法以及比较算法,并通过实验进行了多方面的比较。实验结果表明,本文提出的两个算法准确率均优于传统AdaBoost算法,算法性能确实得到了提高。
其他文献
从课程性质的角度出发,不断探索新的教学方法,利用卡甘合作学习法的优势,在教学过程中可以得到学生的认可、同行的认可,可以作为一种教学方法广泛推广。
新视域下, 课堂教学方式随着信息技术的发展改变而改变.计算机走进教室为教师和学生打开了知识的大门.多媒体技术是计算机技术、 声像技术和通讯技术有机结合的整体.而多媒体
化学是自然科学的重要组成部分,它侧重于研究物质的组成、结构和性能关系,以及物质转化的规律的调控手段,要教学好化学,应贯彻素质教育理念,以生动活泼的方式进行,激发兴趣是
期刊
本文是对高三物理复习策略的总结. 针对新课改的实际要求, 提出了一些实际可行的复习思想, 对以后高考物理复习具有一定得指导作用.
"互联网+"带来了新的教学生态和学习生态,它是用技术增强学与教、对原常态教学的改变和超越。汉语拼音是学生学习汉语的基础,是学习语文的重要工具,是教师在小学一年级语文教
6月将至,朗晴小学校园内的几颗凤凰花开了.凤凰热情似火,作为花中的一角,它以自己独有的色彩精彩绽放.看似火红热情的色彩,凤凰花花语亦是有离别之意,那一抹赤红代表的是无尽