非平衡模糊支持向量机分类算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:bear_flysky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是目前比较流行的机器学习算法,可以较好地解决小样本、非线性和局部极小点等实际问题,并且能够高效地处理平衡数据集分类问题。然而,对于非平衡数据集,SVM产生的分类模型偏向多数类。由于SVM算法对于数据集中的孤立点和随机噪声比较敏感,尽管现在已有的类非平衡学习方法能使SVM对类非平衡问题的敏感性减弱,但是仍然面临着随机噪声和孤立点的问题。而且SVM学习过程中需要调整一些参数,模型学习消耗时间较长。本文针对上述问题首先对面向非平衡数据的模糊聚类方法进行分析,在样本集非平衡程度不是太大时,采用基于核的可能性模糊C-均值聚类算法KPFCM对非平衡数据集进行聚类,典型值和模糊隶属度值的协调作用可以提升算法对样本非平衡的健壮性以及对随机噪声的鲁棒性。同时,本文给出一种高斯核参数优化方法,用于核聚类的参数选取。在样本非平衡比例较大情况下,针对模糊聚类中心严重偏移的问题,本文将过采样技术与KFCM模糊聚类算法相结合来处理非平衡数据模糊聚类。其次,在面向非平衡数据的模糊聚类方法分析的基础上,提出了一种基于核聚类KPFCM的非平衡模糊支持向量机分类算法FPSVM-CIL,实现存在随机噪声以及孤立样本的非平衡数据分类问题。算法通过为核聚类的模糊隶属度和典型值设置阈值减小样本集的非平衡比例,然后将核聚类得到的隶属度和类非平衡学习的不同惩罚系数线性组合作为模糊隶属度值引入到模糊支持向量机模型中。在人工数据集和真实数据集的实验结果表明,FPSVM-CIL算法对于非平衡样本集具有很好的分类性能,对于随机噪声也具有很好的鲁棒性。最后,针对支持向量机算法学习过程耗时较长的问题,在对支持向量机和极速学习机模型分析的基础上,利用极速学习机模型学习速度较快的优点,提出了一种非平衡模糊支持向量机近似方法ELM-CIL。ELM-CIL方法对传统极速学习机模型进行改进,根据样本分布情况在模型中引入不同的模糊值及惩罚系数。实验表明,ELM-CIL算法在保证非平衡样本集中少数类的分类精度与FPSVM-CIL算法相当的前提下,同时加快了算法的学习速度,算法尤其适合处理大规模的非平衡样本集分类问题。
其他文献
随着计算机的发展和Internet的普及应用,各种各样的网络犯罪层出不穷。由于网络环境的特殊性,与传统的取证方法相比,网络环境下的计算机取证面临着涉案人员的身份难以确定、
面向服务的架构(Service-Oriented Architecture,SOA,也叫面向服务的体系结构)是指为了解决业务集成的需要,通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA
随着Web应用系统广泛应用于教育、商业、工业等领域,Web系统变得越来越复杂,一个项目的失败将可能导致Web危机的发生。在Web工程过程中,基于Web系统的测试任务是一项重要而富有
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音
工作站网络(network of workstations NOW)和Internet工作站(workstation in Internet WII)已经成为传统高性能分布式计算环境的一个高效可行的替代方案,但NOW和WII都面临着有
企业资源计划(ERP)是20世纪90年代初在国外兴起的最先进的企业管理技术和方法之一,ERP系统以供应链管理作为其核心管理思想,支持集团化、跨地区、跨国界运行,其主要目的是将
在自然语言处理(NLP)中,词义消歧(WSD)一直是研究的重点和难点。它是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索
随着电信传输网络的不断发展,业务种类的不断增多,网络规模不断扩大,电信运营商越来越需要实时、准确地了解全网资源及资源的使用情况。对于国内大规模建设和应用的传送网,一般情
本文主要研究了基于L系统的公钥密码体制的重要特性在电子拍卖方面的应用。基于L系统的公钥密码体制通常又称作基于同态的迭代的公钥密码密码体制,是由Salomaa等人在1986年提
传统的视频压缩编码标准MPEG—1/2和H.26x都采用基于帧的技术,不要求对场景进行分割,它们能获得较高的压缩比,并在很多领域得到广泛的应用。随着多媒体信息的日益丰富,人们不再满足