集成分类学习算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:lie_luren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘中的一项重要任务,分类是先通过类标号已知的数据建立模型,然后对类标未知的样本进行分类。分类正确率是衡量一个分类器性能的重要指标,然而单个的分类器有时不能达到较好的正确率,而集成学习的出现使得这一问题得到改善。集成分类学习是指通过多个分类器来解决同一学习任务,能够获得比仅使用单一分类器更好的性能。集成学习成为近年来机器学习领域的一个热点方向,由于其优良的特性,现已在多个领域得到应用,例如行星探测、字符识别、生物认证、Web信息过滤等。目前集成学习的研究内容主要包括两个方面:第一,个体学习器精度不能太低,如果学习精度过低,将导致集成的精度不高;第二,个体学习器之间要有差异性,如果没有差异性,则集成是没有意义的。目前已有多种产生差异性的方法,如:基于特征集技术,通过某种策略选取特征子集,可以通过不同的特征集获取个体间的差异性;基于数据技术,采用取样技术获取不同训练数据来获得个体间差异性。然而集成学习还存在着一些未解决的问题,如何设计差异性大的学习器,以及差异性的度量问题。通过对集成学习的深入了解,本文把集成学习应用到分类过程中,在两大经典算法AdaBoost和Bagging的基础上做了一定的改进。获得了好的分类性能以及更快的收敛速度。具体来说,本文开展并完成的工作主要包括以下几点:(1)首先介绍了分类的过程,目前常用的分类算法的基本思想,各种分类算法的优缺点,简要介绍了集成学习的基本概念,分析了两大代表算法AdaBoost和Bagging的理论基础,对选择性集成学习进行了简要阐述,指出目前集成学习的不足以及发展方向,为更好的发展集成学习提供了依据。(2)为了产生精度更高、收敛速度更快的集成,提出了一种新的标记迭代过程中错分样本的AdaBoost算法(MWBoost),该算法通过在提升过程中,总是把上一个分类器错分的样本全部参入到下一个分类器的训练中,同时在分类正确的样本中进行重采样,从而使得后一轮提升中分类器能够更快速地关注那些难以分类的样本。该算法在UCI的多个数据集上进行了测试,并且与传统的AdaBoost算法进行了比较,实验结果表明新的算法具有更好的分类精度以及更快的收敛速度。(3)为了产生多样性的分类器,基于模糊聚类思想,提出了一种新的Bagging集成方法F-Bagging。基本思想是,首先把训练数据通过模糊聚类思想聚类,然后根据隶属度矩阵,如果样例属于多个簇的隶属度差值在一个阈值范围内,那么就把此样例同时划分到这几个簇中,此方法充分遵循了样例的实际分布,最后把各个子集进行训练。由于各子集所包含的数据及数据的类别各不相同,因而使得成员分类器存在着较大的差异性。成员分类器的个数由子集来确定,当训练好分类器之后,考虑到每个簇中的样本相似程度高,因此每一个簇的数据通过训练之后会得到一个比较适合于识别这一类样本的分类器,因此根据测试样例到各个簇中心的距离比例,对分类器进行加权,实验结果表明,此方法对模式分类能取得较好的效果。
其他文献
本文主要研究了神经网络的相关理论,研究了BP神经网络的训练过程、基本算法并做出相应改进即将全部误差累加求和之后集中修改权值,消除了原算法中样本数据的顺序对结果的影响
传统视频编码主要是基于统计相关性去除空间、时间冗余,以达到尽可能高地压缩效果。然而作为视频最终的接受者,人类视觉系统(HVS)由于自身的一些特性,存在着感知冗余。为了得
随着网络的不断发展,其规模与结构都日趋复杂,网络性能的监测与分析已经成为网络管理系统的主要任务之一,它对提高网络服务质量,克服网络瓶颈具有重要的意义。本文采用基于SNMP协
随着社会发展和经济持续增长,遥感技术在测绘、国土资源勘察、气象、灾害监测与环境保护、能源、国防、交通、探索等诸多学科和领域得到了广泛的应用,各种各样的遥感图像正在
认知无线网络动态频谱分配技术是当前无线通信领域研究的热点之一。本文在对认知无线网络频谱分配的相关理论和关键技术进行详细阐述的基础上,采用拍卖理论和博弈相关理论对
入侵检测作为新一代保障网络安全的技术,在近年来得到了广泛的重视和研究。入侵检测系统和防火墙的相互配合大大加强了整个网络环境的安全。入侵检测不但能够检测出来自网络
随着物联网的发展,成本以及能耗低的无线传感器慢慢广泛运用起来,从而使得无线传感器网络(WSN,WirelessSensorNetwork)应运而生。WSN目前在许多领域中都有应用,已渐渐成了通信
针对零件表面缺陷多样性、现场干扰强以及企业在零件检测中普遍以离线方式人工抽检带来的效率低且检测质量不稳定的现状,采用机器视觉与压缩感知(Compressed Sensing,CS)方法
生物特征识别系统的使用安全性是人们普遍关注的问题,人们对生物特征识别系统的信心和接受很大程度上取决于系统的鲁棒性、低错误率和抗欺骗能力。因此活体检测是生物特征识
随着越来越多的企业的软件系统在互联网的环境中运行,保障信息安全就变成了摆在所有人面前的一个必要问题。为此,我们必须建立起一个可靠的安全机制。使用WebService,所有程