论文部分内容阅读
集成学习是近年机器学习领域的研究热点之一。集成学习的基本思想是,首先通过多个基分类器对问题进行分类,然后利用某种方式对分类结果进行综合,以得到更准确的结果。其中,基分类器间是相互独立的。动态集成技术则是通过动态地选择部分而非全部的分类器参与集成,或者动态调整参与集成的基分类器的权重,以获得更高的分类准确率,是进一步提高集成系统分类性能的重要手段。自然数据中广泛存在层次特征。本文主要研究如何基于数据的层次性特征,来构造高性能的动态集成分类器。本文的主要研究工作如下:(1)针对具有层次性特征的数据集,提出了基于泛化属性值划分方法的集成学习算法GAVPEL。该方法利用属性泛化技术,根据数据的层次结构,将训练集划分成不同层次和粒度的子训练集,并在每个子训练集上生成基分类器;在分类时,根据其条件属性值动态地选择相关的基分类器参与集成,并利用投票方法来综合各基分类器的分类结果。实验表明,该算法比传统的Bagging和AdaBoost算法更加有效。(2)由于属性在不同泛化方式下会产生不同的泛化路径,为此,本文在GAVPEL算法的基础上提出了M2算法。该算法利用可能的多种泛化路径,建立MRML模型,根据该模型进行训练集的划分,并在每个划分的子训练集上建立基分类器;在分类时,选择多条泛化路径上的基分类器同时参加集成,分类结果仍采用投票法进行合成。试验表明,该算法不仅能提高集成系统的分类性能,而且还能提高系统的鲁棒性。