基于核函数的集成学习算法研究与应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:ilove19830517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习(Ensemble Learning)是为某个问题训练一组学习器,并将这些学习器联合起来执行一定预测任务的一种机器学习技术。由于该技术能够显著地提高学习系统的泛化能力,受到很多学者的极大关注,并且很快成为了机器学习研究中的一个热点。集成学习技术已经广泛的应用于生物认证、传感器故障容错、字符识别、辐射源识别、语言学、医学、交通、管理学等各个领域。集成学习旨在充分利用每个成员学习器的不同优势,提高整体的泛化性能。现在一般认为,有效地产生泛化能力强、差异大的多个成员学习器,是集成学习算法的关键。传统集成学习算法不能充分利用数据集和成员学习器的特点提高成员学习器的多样性,主要表现在两个方面:第一,在对数据集进行采样时,没有充分利用局部空间的不同特性;第二,在学习器的训练过程中,没有很好的利用过程信息。近年来一些学者将核函数应用到集成学习中,取得了良好的效果。本文的研究目标是将核函数充分地应用到集成学习中,解决传统集成学习算法存在的这两个问题,在保证单个学习器高性能的前提下,实现成员学习器的多样性。具体来说,本文开展并完成了以下方面的工作:(1)简要介绍了集成学习的起源和基本概念;介绍了集成学习中具有代表性的算法Boosting、Bagging和Stacking的基本思想和理论证明;介绍了当前集成学习中的新思想-选择性集成学习;介绍了核函数的历史、基本思想和理论基础。(2)提出了一种基于核函数分割数据集的分类器组合算法(Ensemble Classifiers Algorithm based on Kernel Dataset Partition, KFMCE)。该算法利用基于核的模糊隶属度将原始空间依据局部特征的不同进行分解,然后分别进行有针对性的训练,获得局部性能最优的成员学习器,最后进行集成来提高整体的性能。基于核的模糊隶属度是对基于距离隶属度的扩展,它在映射后的高维空间中求解样本的隶属度,消除了数据集在表征数据分布上的偏差。以机器学习Weka软件为平台在20个不同的UCI数据集上进行实验,结果表明,该算法与AdaBoost和Bagging算法相比,具有更高的分类准确性和更好的泛化能力。(3)提出了一种动态协作的聚类集成算法(Clusterer Ensemble Algorithm Based on Dynamic Cooperation ,DCCE)。该算法同时训练多个基本聚类器,在训练期间,令所有聚类器通过迭代过程中产生的中间信息进行动态协作调整,从而提高集成聚类器的泛化性能和计算效率。协作过程中,算法使用基于核函数的共识函数对多个聚类器的中间结果进行共识,并利用冲量项对中间结果进行调整,达到聚类学习器之间相互协作的目的,完成对基本聚类器的多样性的控制。DCCE算法在15个不同的UCI数据集上进行实验,结果表明该算法具有更高聚类能力。(4)将KFMCE算法应用于文本分类,选择20Newsgroup作为文本数据集进行实验,结果表明该算法在文本分类方面具有良好的效果。
其他文献
近年来,网络以及硬件的快速发展使得人们被淹没在信息海洋之中,因此,基于内容的视频检索成为一个研究热点,体育视频检索作为其中一部分也得到了广泛的研究。足球比赛深受广大
在当代非线性科学中,非线性方程的可积性是广大学者的重要研究方向之一.本文将结合著名数学家吴文俊的数学机械化思想,并以计算机代数系统Maple为工作平台研究非线性微分差分方
词义消歧在自然语言处理的许多应用领域中具有重要的理论和实践意义,是一个影响着自然语言处理领域中许多其他应用问题的“中间问题”,在机器翻译、信息检索、主题内容分析和
P2P网络存储的网络资源也越来越多,如何在海量的网络资源中精确定位所需资源(P2P的资源定位模型)成为当前P2P研究领域的热点。P2P的资源定位模型决定着资源查找的准确率以及
物联网是通过信息传感设备采集物理世界中物的信息,并将物的信息上传至互联网,其本质是在互联网上实现物理世界的信息共享。物联网的传感设备时时刻刻采集处理现实世界信息,以便
随着计算机技术的不断发展,手势识别已经成为人机交互领域中的一项关键技术。现今,作为一种新型的人机交互技术,手势识别已经成为涉及图像处理、模式识别、计算机视觉等领域
随着当今信息技术和Internet技术的迅猛发展和广泛应用,时时可学、处处可学和人人可学的学习型社会正在形成。网络远程教育逐渐成为一种重要的教学模式。各种教育理念也逐渐
基于SIP的下一代网络(NGN),能够无缝融合3G、WLAN、PSTN、互联网等各种类型的网络,这使得SIP在NGN网络中将占据主导地位。基于SIP的网络融合平台提供了基于SIP的网络服务项目
特征抽取在模式识别中占据着至关重要的地位,其方法有很多。本文基于偏最小二乘(PLS)的建模思想,深入探讨了将PLS方法和模糊PLS(FPLS)方法用于特征抽取的理论和方法。本文主
随着计算机技术的发展,总线技术也在不断发展,总线种类越来越多,速度也越来越快。市面上同类型产品接口呈现多样化,这使得应用开发者在系统设计时选择更灵活,但同时也带来新