论文部分内容阅读
集成学习使用多个学习器来解决同一问题,能够显著提高学习系统的泛化能力,成为近年来机器学习领域中一个重要的研究方向。尽管集成学习的经典算法族Boosting和Bagging已经研究得比较深入,但目前关于集成学习算法的设计还没有统一的规则可循,因此继续从其他角度来研究性能更好的集成学习算法是一个趋势,也很有必要。选择性集成作为一种特殊的集成学习范式,它选择出个体学习器中差异大,泛化性能好的部分学习器参与集成,得到了比以往集成所有的学习器更好的性能。因此如何选择出差异大,泛化性能好的部分个体学习器成为集成学习的一个研究热点。本文在简单介绍集成学习的相关理论,总结集成学习领域的算法和技术的基础上,主要做了以下两方面的工作:首先,提出了一种新的基于成对约束和子集选择的集成学习算法。算法中有两个创新点,一是将半监督聚类中出现的新概念(成对约束)引入到Bagging中的Bootstrap可重复采样中以得到具有更大差异性的训练子集;二是定义了一个类别离散度函数。这个函数的函数值是用来衡量训练子集中数据的类别离散程度。通过选择出类别离散程度较好的训练子集以间接实现个体学习器的选择。为了证明算法的有效性,使用10个标准UCI数据集在Matlab7.0的环境下对算法进行了测试,而且还与传统的Bagging算法进行了比较,实验结果表明该算法优于传统的Bagging算法,能获得更好的预测准确率。其次,提出了一种基于互信息技术的选择性集成学习算法,简称为mRMR-MISEN算法。该算法将特征选择中的基于互信息的最大相关最小冗余准则用于集成学习中的个体学习器的选择。最大相关计算个体学习器在验证集上的输出与目标输出之间的互信息。互信息越大,个体学习器与目标输出越接近,预测性能越好;最小冗余计算各个个体学习器在验证集上的各个输出之间的互信息。互信息越大,两个个体学习器之间的差异性就越小。算法利用最大相关最小冗余准则来实现个体学习器的选择,不仅考虑了选择出的个体学习器的泛化能力,也充分考虑了它们之间的差异性。在Matlab7.0下使用10个标准数据集对算法进行了测试,而且与MISEM (Mutual Information Based Selective Ensemble)和CMISEN(Conditional Mutual Information Based Selective Ensemble)进行了比较,实验结果表明,该算法在预测精度上优于以上两种算法。