论文部分内容阅读
集成学习方法能够将原本表现一般的弱分类器集成起来,显著地提高学习系统的泛化能力,从而得到更好的预测精度。同时由于集成学习方法具有灵活的适应能力,它已经被成功地应用到各个领域。集成学习是一个较为宽泛的概念,其中包括很多种不同的实现方法,包括:装袋法,Boosting方法以及随机森林等。这些方法在实际的应用中都取得了很好的效果,但是都在还存在着一些缺陷,如Boosting方法不能并行化处理,随机森林在某些噪音较大的分类问题上会过度拟合。为了解决这些问题,不断地有新的集成学习方法被提出。集成学习方法主要分为两个过程,弱分类器生成过程和整合过程。对集成学习方法的研究主要集中在对整合过程的研究。本文中,在对加权整合方法进行了仔细地分析,并发现可以将其考虑成连续优化问题。解决连续优化问题,一般采用启发式算法。启发式算法能够在保证一定精度的情况下,明显地缩短求解时间。蚁群算法是启发式算法中表现很好的一种,已经在组合优化、系统辨识以及数据挖掘领域得到了广泛的应用。但是一般的蚁群算法并不能直接处理连续优化问题。通常的蚁群算法用于处理组合优化问题,处理连续优化问题还需要专门的改进。本文的改进方法主要通过改变信息素的表示形式来实现。将信息素以分布的形式表示,以此来控制权值的连续变化。为了测试最终实现的蚁群集成学习方法,将其应用到了药物预测领域。将其最终的结果与装袋法和Adaboost方法进行比较,得到了比较理想的结果。本文还专门针对蚁群集成学习方法的可并行性进行了研究。随着数据不断地增长,现实中处理的数据量越来越大,算法耗时也逐渐地成为衡量算法性能的一个标准。因此最近不断地将一些经典算法进行并行处理,这说明了并行性研究的必要性。蚁群集成学习方法是在蚁群算法的基础上实现的。在前人的研究中发现,蚁群算法本身具有良好的并行特性。借鉴之前的研究我们发现,蚁群集成学习方法也具有很明显的并行性。在文章的最后还提出了基于MapReduce的并行实现,对比串行处理显著地降低了时间消耗。