基于抽样和特征变换的类不平衡组合分类器算法

来源 :信阳师范学院 | 被引量 : 1次 | 上传用户:lovelyhuanhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类不平衡问题,也被称为不平衡类问题或稀有类问题,是模式识别和机器学习领域研究的热点问题之一。对于两类问题,类不平衡问题的特点是一个类(多数类)的实例数明显多于另一个类(少数类)的实例数。业界内的广泛共识是错误预测少数类实例的代价要明显高于错误预测多数类实例的代价。然而,传统的分类方法试图通过假设任何类的实例数量彼此相似,进而学习具备高精度的模型,这往往导致少数类实例被忽视并被错误地分类为多数类。组合分类方法是常用于处理类不平衡问题的方法之一,相关的研究成果大致可以分为三类,即基于Bagging的组合分类器、基于Boosting的组合分类器以及混合组合分类器。前两种将抽样方法与Bagging和Boosting方法相结合,使得学习到的模型更关注于少数类实例,第三种方法将前两种方法相结合进而将同时获取Bagging和Boosting优势,增强分类器在不平衡类上的性能。组合分类器成功的关键是构建有差异且准确的基分类器。与以上方法不同,本文将抽样与特征变换方法相结合,提出一种基于抽样与特征变换的组合分类器学习方法,保障分类器间的差异性及基分类器的准确性,提高模型在类不平衡数据集上的性能。该方法迭代学习每个基分类器,具体过程如下:1)欠抽样原数据集获得平衡数据集,在该平衡数据集上,进一步使用随机抽样技术抽样获得新的数据集,并在新数据集上学习一个变换矩阵;2)使用变换矩阵将第1步骤获得的平衡数据集映射到新的空间以获得新的训练数据集,并学习一个基分类器。步骤1中第一个欠抽样用于确保学习的变换矩阵更好地捕获不平衡类特征,第二个抽样用于增加特征变换的差异性,进而有效保障基分类器间的差异性;步骤2使用平衡数据集训练基分类器,目的是增强基分类器模型在不平衡类上的泛化性能。相关实验结果表明,与其它高级分类方法相比,提出的方法在准确率、召回率、f-measure、g-mean和AUC上都显示了更好的泛化性能。
其他文献
近年来,随着可穿戴设备、远程医疗、智能家居等诸多物联网概念的兴起,实时嵌入式系统被更加广泛地应用到了人们的日常生活中。而现代嵌入式系统的设计也日益复杂,传统基于周
随着人类科技的不断进步,众多交通工具在车身结构设计中选用智能结构来提升结构性能。智能结构诞生于信息科学工程和材料科学的相互渗透中,除了拥有同一般结构一样的承载能力外,还能根据内外部环境变化做出响应,具有精度高、响应快、分辨率高、体积小等特点,同时拥有自诊断、自适应、自修复等功能。同时,智能结构的迟滞特性也受到越来越多的关注,这种迟滞特性不但影响系统的输出精度,甚至威胁系统的稳定性。为了更好地使智能
住房是民生之要,是人民最关切、最渴望、最关乎其自身利益的需求。政府从管理型政府转变服务型政府的过程中,要将职能转变落实,加强公共服务,社会管理,将人民对工作的满意作
近些年来,使用噪声和非线性动力系统的随机共振现象检测微弱信号的研究引起了学者们广泛关注,主要研究内容包含随机共振模型的选择,信号的输出响应与失真恢复等.随机共振通过
设S =(a1,...,am;b1,…,bn)是一个序列对,其中a1,...,am和b1,...,bn是非增非负整数序列。若序列对S是某个简单二部图G =(X∪Y,E)的度序列,使得顶点集X和Y中各顶点的度分别为a1,..
图像在获取、传输、存储等过程中极易受成像设备、外界环境等因素的影响,形成各种干扰信息引起图像质量不佳,导致后续图像处理工作无法顺利进行。因此,图像复原算法的研究显
随着MPTCP(Multipath-TCP多路径传输控制协议)协议的不断演进,人们注意到MPTCP协议的鲁棒性、吞吐量、传输性能正在不断地增强,但对多路径传输缓存耗量的计算还在沿用单路径
在云即服务的当今互联网生态环境中,云服务提供商进入安全领域的角度和传统安全厂家的角度非常相似,以提供物理、网络、存储和虚拟化层面的安全服务为切入点,即网络基础架构
嵌入式网络系统,如无线传感器网络,越来越多地被运用到生产生活的各个方面。但由于嵌入式网络系统工作负载多变和资源受限的特点,异常检测和诊断往往十分困难。本文提出了一
在大规模数据中心网络环境中,使用单台SDN控制器通常存在性能瓶颈,因此常把分布式的多个控制器组成控制器集群,以提高对交换机的控制能力。针对多控制器方案中,由负载不平衡