论文部分内容阅读
集成学习是一种新的机器学习范式,它使用多个学习机来解决同一个问题。由于它能显著提高一个学习系统的泛化能力,从20世纪90年代开始,对集成学习理论和算法的研究一直是机器学习领域中的热点问题之一。目前,集成学习已经被成功应用于解决语音识别、基因数据分析、遥感数据处理、图像处理、文本分类等众多实际问题。然而,集成学习的技术还不够成熟,在集成学习的研究中还存在大量尚未解决的问题。本文对集成学习进行了较为深入的研究,在简要介绍了集成学习的概念、构成、作用及其最新研究成果,分析了集成学习中两大算法族Bagging和Boosting的工作机制之后,本文主要做了以下几个方面的研究工作:(1)基于AdaBoost分类算法,设计了一个新的局部Boosting分类算法,新算法比AdaBoost更精确,对噪声也更稳健。同时,采用Kappa-Error图对集成分类器的准确性和多样性作了进一步的分析。(2)将Bagging算法、主成分分析及Random Subspace方法相结合,提出了一个新的集成分类算法。利用一些实际数据集对新算法的性能进行考查的结果表明新算法的预测精度显著优于Bagging和Random Forest,尽管AdaBoost与新算法的预测精度相当,但在计算复杂性方面新算法更具优势。(3)结合Bagging和Rotation Forest这两个算法的优点,设计了一个预测精度更高、对噪声更稳健的集成分类算法,利用误差的偏差-方差分解对几种构建集成分类器的算法作了更深入的分析。(4)将Rotation Forest集成分类算法进行推广,用于解决回归问题,并利用模拟数据和实际数据研究了该算法中的参数选择对算法性能的影响。(5)采用Boosting算法的主要思想来确定Double-Bagging集成学习技术所生成的基学习机的合并顺序,提出了一种新的选择性集成学习算法,提高了原有集成学习机的预测精度和速度。(6)利用学习曲线对多响应线性回归(Multi-response Linear Regression,MLR)合并基分类器方法的性能在多种情况下(训练样本的不同容量、对给定数据集使用不同划分方法(Reusing, Validation, Stacked generalization)用于训练基分类器和合并准则)进行了较全面的研究,并与其他一些合并方法进行了比较,试验表明多响应线性回归合并准则在小样本容量下效果较好。本文利用模拟数据和实际数据做了大量的数值试验,其结果表明,文中所提出的新算法具有令人满意的预测效果,从而为我们解决实际问题提供了一些可行途径。