集成学习中有关算法的研究

被引量 : 34次 | 上传用户:dazhonghua988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是一种新的机器学习范式,它使用多个学习机来解决同一个问题。由于它能显著提高一个学习系统的泛化能力,从20世纪90年代开始,对集成学习理论和算法的研究一直是机器学习领域中的热点问题之一。目前,集成学习已经被成功应用于解决语音识别、基因数据分析、遥感数据处理、图像处理、文本分类等众多实际问题。然而,集成学习的技术还不够成熟,在集成学习的研究中还存在大量尚未解决的问题。本文对集成学习进行了较为深入的研究,在简要介绍了集成学习的概念、构成、作用及其最新研究成果,分析了集成学习中两大算法族Bagging和Boosting的工作机制之后,本文主要做了以下几个方面的研究工作:(1)基于AdaBoost分类算法,设计了一个新的局部Boosting分类算法,新算法比AdaBoost更精确,对噪声也更稳健。同时,采用Kappa-Error图对集成分类器的准确性和多样性作了进一步的分析。(2)将Bagging算法、主成分分析及Random Subspace方法相结合,提出了一个新的集成分类算法。利用一些实际数据集对新算法的性能进行考查的结果表明新算法的预测精度显著优于Bagging和Random Forest,尽管AdaBoost与新算法的预测精度相当,但在计算复杂性方面新算法更具优势。(3)结合Bagging和Rotation Forest这两个算法的优点,设计了一个预测精度更高、对噪声更稳健的集成分类算法,利用误差的偏差-方差分解对几种构建集成分类器的算法作了更深入的分析。(4)将Rotation Forest集成分类算法进行推广,用于解决回归问题,并利用模拟数据和实际数据研究了该算法中的参数选择对算法性能的影响。(5)采用Boosting算法的主要思想来确定Double-Bagging集成学习技术所生成的基学习机的合并顺序,提出了一种新的选择性集成学习算法,提高了原有集成学习机的预测精度和速度。(6)利用学习曲线对多响应线性回归(Multi-response Linear Regression,MLR)合并基分类器方法的性能在多种情况下(训练样本的不同容量、对给定数据集使用不同划分方法(Reusing, Validation, Stacked generalization)用于训练基分类器和合并准则)进行了较全面的研究,并与其他一些合并方法进行了比较,试验表明多响应线性回归合并准则在小样本容量下效果较好。本文利用模拟数据和实际数据做了大量的数值试验,其结果表明,文中所提出的新算法具有令人满意的预测效果,从而为我们解决实际问题提供了一些可行途径。
其他文献
我们近年来采用鱼腥草粉宫颈局部给药联合口服灵芝破壁孢子粉治疗宫颈癌筛查中高危型人乳头瘤病毒(HPV)感染的患者,取得满意的疗效,现将观察结果报道如下。
<正>促进纪录片的繁荣发展,对于推动文化大发展大繁荣、提升中华文化的国际影响力具有十分重要的意义。国家广电总局颁布了《关于加快纪录片产业发展的若干意见》,中央电视台
进入新世纪,随着我国社会经济的迅速发展和农村教育体制改革的进一步深入,农村教育作为提高全民素质的基础教育得到全社会重视。东北地区由于其地域环境的特殊性,现有的传统
原型范畴理论是认知语言学提出的重要观点,是基于人类认知基础上的范畴化理论,也称现代范畴理论。该理论认为,范畴化是人类认识世界的一种基本认知方式,范畴是范畴化的产物和
十七大报告上提出了要建设生态文明的战略任务,这是在深刻认识和把握了经济社会发展规律的基础上做出的重大决策,生态建设与经济建设是辨证统一、相辅相成的,生态建设的大力
重大风险管理机制是企业平稳、成功实现持续创新的保障。当前中国企业持续创新的重大风险管控严重不足,重大风险管理机制普遍尚未建立。在对企业持续创新重大风险和风险管理
社会和谐是中国特色社会主义的本质属性,是国家富强、民族振兴、人民幸福的重要保证。就业是民生之本,创造一个公平竞争、合理有序的就业环境,积极促进社会就业是和谐社会的
本文在采用措辞提取法构建我国媒体信息披露指数的基础上,利用SVAR模型重点研究了媒体信息披露对公众通胀预期形成的影响。研究结果表明短期内媒体信息披露与通胀预期形成之
在市场竞争中,忠诚客户是企业存在和发展的基础,银行业与其他行业相比,具有一定的特殊性,使得银行客户忠诚度区别于一般客户忠诚度。文章把银行客户忠诚度定义为客户与银行之
<正>一红色影视剧的热播是新世纪以来影视传媒领域的一个重要现象。电视剧《激情燃烧的岁月》、《亮剑》、《潜伏》、《悬崖》、《暗算》、《恰同学少年》、《中国1921》以及