Adaptive Boosting算法及组合分类器的构建研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:dl_zsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘的任务之一,其先在已知类别的样本上学习然后生成一个预测模型以判定新数据的类别。集成学习为这一问题提供了一种有效可行的解决方式,它的基本思想是先构建多个不同的预测模型(基分类器),然后将其输出做某种组合作为最终的输出。一般,集成学习可以获得比单一分类器更加稳定的输出及更优的分类性能,而Boosting是该领域的代表性方法,它可将粗造的、不太正确的、简单的初级预测模型,按照一定规则构造出一个精确度很高的强分类器。最初它很难应用于实际问题中,AdaBoost(Adaptive Boosting)算法的出现有效地解决了这一问题,成为Boosting家族的代表算法,受到了极大的关注。多样性是影响集成学习泛化能力的关键因素,因此本文从分析AdaBoost基分类器之间的多样性变化规律入手,基于多样性对AdaBoost算法进行研究分析,先后给出了两种优化集成性能的方法,最后融合粒子群算法(Particle Swarm Optimization,PSO)和AdaBoost算法,提出一种基于特征选择的集成方法,用以解决不平衡多分类问题。具体工作是:首先,针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量(Double Fault Measure,DF)改进的AdaBoost方法。首先,研究分析4种不同的多样性度量方式与测试误差的相关性。然后,基于上一步得出的实验结果,尝试利用DF改进AdaBoost的弱分类器的选择策略。最后,实验结果表明改进后的AdaBoost算法可以控制过适应,进一步提高分类性能。另外,基分类器的准确率和多样性是影响集成学习泛化能力的两个重要方面,为保证准确率同时增加多样性进而提高集成泛化能力,尝试将聚类和AdaBoost算法结合。首先,对训练样本进行聚类,将训练样本分成多个组。然后,分别在每组上进行AdaBoost训练得到强分类器,按照加权投票策略进行强分类器的集成。其中,每个分类器的权重是自适应的,是基于测试样本与每组的相似性以及强分类器对此测试样本的分类置信度计算而得。最后,在10组来自UCI机器学习库(University of California Irvine Machine Learning Repository,UCI)的数据集上与Bagging,随机森林和AdaBoost等代表性集成方法比较,结果表明此方法可取得更高的分类精度。最后,针对不平衡分类问题,根据AdaBoost可学习有利于高权值样本的模型的特点,结合特征选择探索解决此类问题的有效方法。首先,对数据进行预处理,通过PSO算法优化特征选择,来去除不相关和冗余的特征,降低小类被当作噪音的风险。同时为了缩短PSO的进化时间,会先根据特征重要性生成一个近似最优粒子加入初始化种群,使得粒子群一开始沿着较为合理的方向搜索。然后,利用AdaBoost可学习有利于高权值样本的模型的特点,增加对小类的关注,在保证总正确率的前提下提高小类识别率。最后,与其他算法在7组不平衡数据集上进行对比实验,验证了该方法的有效性。
其他文献
运用计算流体运动力学软件FLUENT对抽气式转杯纺纺杯内气流场进行建模、网格划分,并采用有限体积法对纺杯内的气流场进行二维数值模拟,得到速度矢量分布以及2个截面的x轴方向和
为了提升桥梁项目建设的质量水平, 国家逐步加强了对于桥梁工程项目建设的技术应用需求, 而挂篮作为当前桥梁施工中的关键施工设备, 开始成为建设队伍的关注重点.结合从莞高
为进一步研究和优化玻璃温室内部气流场及温度场的分布,基于计算流体力学(computational fluid dynamics,CFD)对东北地区玻璃温室内部气流场进行三维建模数值分析,分析得出内
通过对管外壁非均匀加热/冷却条件下层流管内受迫流动热入口段内流体与管理间耦合传热的分析计算,研究了试件几何尺寸,试件与流体物性参数及流体流动状态对管内流体内管壁处热边
<正>在许多情况下,公共卫生与临床医学一直存在日益加深的裂痕,然而,在中国的艾滋病防治工作中,这种裂痕却有弥合的迹象。由于开展治疗和关怀工作的需要,中国疾病预防控制中
会议
文章致力于研究教学活动中的主要矛盾,即"教"与"学"的统一问题,通过有效举措,使师生互教互学,彼此形成一个"学习共同体"。通过教与学的"双修",使专业教学体系进一步优化,利于
根据2003年1月份珠江口实测资料获得了适合该海域的相关参数,建立了适用于该海域的二类水体水色三要素优化反演模型,同步优化反演得到了与2003年1月25~26日实测站点相对应的2003
《骆驼祥子》是老舍先生的代表作,也是中国现代文学史上一部优秀的现实主义作品。老舍先生描写了旧中同北平一个外号“骆驼”名叫“祥子”的人力车 “Camel Xiangzi” is Mr
随着房地产业的蓬勃发展,房地产开发企业有了更广阔的发展前景。其对国民经济的重大影响力。要求我们必须了解和掌握房地产开发企业营业收入的核算范围和确认原则,并通过案例说
灾害天气,如暴雨、洪涝、龙卷风等,会给人们的生命财产和国民经济建设带来重大的损失。而暴雨等强对流天气与中尺度对流系统(Mesoscale Convective Systems,简称MCS)的发生发展