论文部分内容阅读
集成学习是当今机器学习的四大研究方向之首,随着越来越多的学者的介入研究,集成学习经典算法族Bagging和Boosting已经研究的比较深入,因此需要从其他的角度来研究性能更好的集成算法。选择性集成就是一种特殊的集成学习的范式。它利用优化选择出个体学习器中的部分差异性大,泛化能力强的学习器加以集成,得到了比以往集成所有个体学习器更好的性能。目前集成学习已经应用到很多领域,比如行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等领域。本文详细分析了集成学习的有关理论和算法,集成学习生效的原因和优势,并指出了集成学习的不足和研究方向,然后介绍了选择性集成学习的理论基础和构造算法,最后做了以下两个主要的工作。首先,介绍了信息论中条件互信息的理论,并将它与集成学习相结合,构造出一个利用条件互信息来选择优化个体学习器的算法CMISEN(Conditional Mutual Information Based Selective Ensemble),该算法在选择个体学习器的过程中考虑了他们之间的影响,能防止选入一些冗余的个体学习器,使个体学习之间的差异性更大。最后将它在Weka平台下实现,通过与Bagging和MISEN(Mutual Information Based Selective Ensemble)算法在UCI数据集上比较,证明了该算法在预测准确性上优于前两种方法。其次,感官评估也是目前研究的热点内容之一,目前在烟草行业已经运用了很多计算机智能的方法来解决问题,并取得很好的成果。但是在机器学习方面仍是利用传统的单一学习器的方法。单一的模型的预测不是很稳定,可能对这批数据集预测效果好,对另一批数据的预测效果就差,而且如果过拟合的话往往导致泛化能力的下降,所以利用集成学习的方法会降低这种过拟合而导致泛化能力下降的风险。因此本文将集成学习算法用于烟叶感官评估,通过实验证明,集成学习在烟叶感官评估方面确实要优于传统的单一的模型。最后提出了以后的工作展望,对集成学习的进一步发展提出了自己的看法。