集成学习算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户：kezhixiao

【摘要】

：

集成学习使用多个学习器来解决同一问题,能够显著提高学习系统的泛化能力,成为近年来机器学习领域中一个重要的研究方向。尽管集成学习的经典算法族Boosting和Bagging已经研

【作者】

：

马冉冉

【机构】

：

山东科技大学

【出处】

：

山东科技大学

【发表日期】

：

2010年期

【关键词】

：

集成学习选择性集成成对约束类离散度互信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

集成学习使用多个学习器来解决同一问题,能够显著提高学习系统的泛化能力,成为近年来机器学习领域中一个重要的研究方向。尽管集成学习的经典算法族Boosting和Bagging已经研究得比较深入,但目前关于集成学习算法的设计还没有统一的规则可循,因此继续从其他角度来研究性能更好的集成学习算法是一个趋势,也很有必要。选择性集成作为一种特殊的集成学习范式,它选择出个体学习器中差异大,泛化性能好的部分学习器参与集成,得到了比以往集成所有的学习器更好的性能。因此如何选择出差异大,泛化性能好的部分个体学习器成为集成学习的一个研究热点。本文在简单介绍集成学习的相关理论,总结集成学习领域的算法和技术的基础上,主要做了以下两方面的工作：首先,提出了一种新的基于成对约束和子集选择的集成学习算法。算法中有两个创新点,一是将半监督聚类中出现的新概念(成对约束)引入到Bagging中的Bootstrap可重复采样中以得到具有更大差异性的训练子集；二是定义了一个类别离散度函数。这个函数的函数值是用来衡量训练子集中数据的类别离散程度。通过选择出类别离散程度较好的训练子集以间接实现个体学习器的选择。为了证明算法的有效性,使用10个标准UCI数据集在Matlab7.0的环境下对算法进行了测试,而且还与传统的Bagging算法进行了比较,实验结果表明该算法优于传统的Bagging算法,能获得更好的预测准确率。其次,提出了一种基于互信息技术的选择性集成学习算法,简称为mRMR-MISEN算法。该算法将特征选择中的基于互信息的最大相关最小冗余准则用于集成学习中的个体学习器的选择。最大相关计算个体学习器在验证集上的输出与目标输出之间的互信息。互信息越大,个体学习器与目标输出越接近,预测性能越好；最小冗余计算各个个体学习器在验证集上的各个输出之间的互信息。互信息越大,两个个体学习器之间的差异性就越小。算法利用最大相关最小冗余准则来实现个体学习器的选择,不仅考虑了选择出的个体学习器的泛化能力,也充分考虑了它们之间的差异性。在Matlab7.0下使用10个标准数据集对算法进行了测试,而且与MISEM (Mutual Information Based Selective Ensemble)和CMISEN(Conditional Mutual Information Based Selective Ensemble)进行了比较,实验结果表明,该算法在预测精度上优于以上两种算法。

其他文献

大规模传感网数据整合平台关键技术研究

大规模无线传感器网络较传统无线传感器网络表现出更多异构性、不均匀性以及不一致性,感知数据在类型上具有复杂化与多样化特征,在数据规模上具有大数据特征,导致传统无线传

学位

云计算无线传感器网络覆盖控制数据整合

一种在移动网络环境下的网页排序算法的研究

随着互联网上信息的暴增,用户很难在互联网上查找到自己想要的信息。为了解决此问题。搜索引擎诞生了。同时经专家统计发现,人们在利用搜索引擎查找信息时,他们绝大多数情况

学位

移动网络网页排序改进算法区分

概率XML文档中Twig查询处理算法的研究与实现

随着互联网技术的发展,XML作为信息存储和数据交换的标准被广泛采用,由于客观世界的复杂性,不确定数据存在于一些应用领域。通常不确定信息以概率值的形式在XML文档中表示,这

学位

概率XML文档p-TJFast算法ProFirstTwig算法匹配标签流

基于人工免疫的网络入侵检测研究

随着Internet的快速发展,网络入侵的手段和方法也越来越复杂,网络的安全形势日益严峻。入侵检测系统作为保护网络安全的第二道屏障,其技术也在不断地进步。借鉴生物免疫系统

学位

入侵检测生物免疫系统人工免疫系统协同刺激

大规模网络中基于流量特征的入侵检测性能改进

本文致力于利用流量特征，设计面向入侵检测的流量选择方法进而构造与之相适应的DIDS系统，以解决主干网中IDS处理性能跟不上网络链路速度快速增长的问题。研究内容主要分为如下

学位

流量特征入侵检测性能改进主干网

网络模拟中本地路由策略的研究与优化

网络模拟技术作为研究网络性能、设计网络方案所不可缺少的工具,得到了越来越多的重视。而在网络模拟研究中,路由策略是影响网络模拟性能最为重要的因素,如何在有限的硬件资

学位

网络模拟路由策略本地路由策略最小生成树覆盖率

基于传感器网络的智能交通系统模型应用研究

随着全球经济的高速发展,社会对交通运输需求持续增长,交通问题已成为世界各地城市,尤其是大城市面临的首要问题之一。近年来,随着智能交通系统的开发和无线传感器网络的研究

学位

道路交通网系统模型移动agent最近邻

视频监控中的运动目标检测算法研究与实现

运用目标提取算法从连续视频图像中提取并优化运动目标,是运动跟踪、目标识别、视频监控、视频摘要、三维重建等问题的关键环节,由于其广泛的应用及本身的复杂性,运动目标检

学位

运动目标检测背景相减法高斯混合模型码本模型

汽轮机监测保护装置测试系统的研究与设计

汽轮机作为火力发电厂重要的大型旋转机械,处于生产环节中的关键地位,对其安全性和可靠性有很高的要求。为了保障汽轮机组的正常运行,汽轮机监测保护装置(TSI,Turbine Supervisory Instrumentation)在机组的保护中正在被越来越广泛的使用,由此可见,监测保护装置是否可靠在很大程度上也决定了汽轮机组的运行情况。目前汽轮机监测保护装置卡件的定期校验需要拆解送到实验室来进行,并且

学位

汽轮发电机预测维修装置监测保护装置测试系统

基于兴趣社区的MP2P网络资源定位算法研究

近年来,随着高性能移动终端设备的普及,人们已经习惯将文档、音乐、视频等文件存放在自己的手持设备中。因此,如何使用户随时随地的进行文件共享,实现P2P (Peer to Peer)技术

学位

MP2P网络资源定位兴趣社区决策树D-Flooding

集成学习算法研究

与本文相关的学术论文