基于蚁群的集成学习方法及其并行性研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习方法能够将原本表现一般的弱分类器集成起来,显著地提高学习系统的泛化能力,从而得到更好的预测精度。同时由于集成学习方法具有灵活的适应能力,它已经被成功地应用到各个领域。集成学习是一个较为宽泛的概念,其中包括很多种不同的实现方法,包括:装袋法,Boosting方法以及随机森林等。这些方法在实际的应用中都取得了很好的效果,但是都在还存在着一些缺陷,如Boosting方法不能并行化处理,随机森林在某些噪音较大的分类问题上会过度拟合。为了解决这些问题,不断地有新的集成学习方法被提出。集成学习方法主要分为两个过程,弱分类器生成过程和整合过程。对集成学习方法的研究主要集中在对整合过程的研究。本文中,在对加权整合方法进行了仔细地分析,并发现可以将其考虑成连续优化问题。解决连续优化问题,一般采用启发式算法。启发式算法能够在保证一定精度的情况下,明显地缩短求解时间。蚁群算法是启发式算法中表现很好的一种,已经在组合优化、系统辨识以及数据挖掘领域得到了广泛的应用。但是一般的蚁群算法并不能直接处理连续优化问题。通常的蚁群算法用于处理组合优化问题,处理连续优化问题还需要专门的改进。本文的改进方法主要通过改变信息素的表示形式来实现。将信息素以分布的形式表示,以此来控制权值的连续变化。为了测试最终实现的蚁群集成学习方法,将其应用到了药物预测领域。将其最终的结果与装袋法和Adaboost方法进行比较,得到了比较理想的结果。本文还专门针对蚁群集成学习方法的可并行性进行了研究。随着数据不断地增长,现实中处理的数据量越来越大,算法耗时也逐渐地成为衡量算法性能的一个标准。因此最近不断地将一些经典算法进行并行处理,这说明了并行性研究的必要性。蚁群集成学习方法是在蚁群算法的基础上实现的。在前人的研究中发现,蚁群算法本身具有良好的并行特性。借鉴之前的研究我们发现,蚁群集成学习方法也具有很明显的并行性。在文章的最后还提出了基于MapReduce的并行实现,对比串行处理显著地降低了时间消耗。
其他文献
网格是一个稳定的环境,它将分散在一个较大范围内的由不同组织管理的各种仪器设备、计算资源和信息资源集中在一起,允许应用软件方便地进行访问.计算机网络的迅速发展和网络
随着工业技术的发展,在人-机-环境这个系统中,人的因素越来越引起大家的重视。人的因素已经成为工业产品设计的主要因素甚至决定因素,在设计及产品的测试过程中需要“以人为
随着计算机技术的飞速发展,计算机已经逐渐成为人们生活不可或缺的一部分,与此同时,恶意软件的数量在迅速增长,其反分析、反检测技术也不断增强,这给安全软件的设计和实现提出了更
本文介绍了文本分割的历史发展和现状,对当前文本分割领域的主流方法进行了讨论,并结合文本分类任务对文本分割任务中所存在的问题及典型的解决方案进行了介绍。因为统计模式
本文通过理论分析加以辅助实验,围绕Web使用挖掘中的几个主要问题进行了研究。  本文首先对Web使用挖掘中各个阶段进行了全面的分析,尤其对数据预处理中用户会话和用户事务的
现今我们正处于一个信息速增的时代,每日有数以PB计的数据在网络上传输与处理。然而,在这些数据中,除了传统的文本数据之外,图片和视频等多媒体数据也受到越来越多用户的青睐
能源竞争已成为当代国际竞争的重要内容,随着我国国民经济发展和对能源行业的更加重视,石油工业被推到了极其重要的战略位置。信息技术的应用对于提高石油行业勘探开发、数据
本文首先介绍了G.726语音编解码算法的在PC机中的编程实现以及在目标板上的移植。此算法也是H.323标准中语音算法的一种。 其次本文介绍了一个基于H.323的网守总体设计与
人脸识别是模式识别研究领域的重要课题。在过去几十年,人脸识别的研究更多地停留在理论意义之上,自20世纪80年代末90年代初以来,随着信息安全的重要性日益突出,人脸识别技术
针对地理信息系统对矢量化电子地图的需求,本文设计并实现了纸质地形图矢量化系统。本文用数学形态学相关理论方法实现了对扫描图像的分割,并且对具有同一线型但不同线宽的线状