多视角框架下的不平衡集成分类器的设计与研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:lmj1103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类器是机器学习中最基本的一种算法,它用于对未知样本进行预测和分类。在常规应用已经有很多研究学者提出了不同方法,并取得很好的分类性能。但现实中还存在着很多在每个类别中样本数目差异大的数据分类问题,使用通常的分类模型进行训练得到的分类器可能会忽视样本较少的类别,然而这些样本较少的类别却在实际中需要人们更多的关注。这种问题称为不平衡分类问题。现有的不平衡分类算法主要分为采样,与代价敏感的方法,还有一部分混合使用集成学习的方法。本文从解决不平衡分类问题的策略出发,结合现有的多种针对不平衡的方法,同时设计多视角学习和集成框架来克服传统不平衡分类方法的缺点提高分类性能。本文首先提出采样与集成策略下的多视角熵学习模型(Multi-view Entropy Discriminant Learning with Sampling and Ensemble Strategy,MEDL);其次,从生成模型与判别模型融合的角度,基于Fisher核映射的方法和多视角子空间集成学习提出了基于Fisher核的双重采样多视角模型(Fisher Kernel-based Multi-view Learning with Bi-Bagging,FKML)。本文贡献有如下三点:  第一,目前的不平衡算法主要以算法的单个方面为出发点进行方法的改进,一般为采样方法的改进,分类模型的目标函数的改进,以及单个分类框架的改进。因此本文从多个方面同时出发,首先通过结合采样方法来构造平衡的子训练集,用于训练基分类器,同时通过针对基分类模型设计局部熵,使得训练得到的基分类器模型更关注对分类有用的样本,从而提高基分类器的能力,再通过集成方法提升整体分类器的分类性能。  第二,传统集成方法中的基分类器大多是基于单视角数据而训练的。但由于采样方法对训练样本的信息造成损失,从而使得样本的数量可能因为过少,不足以训练一个有效的基分类器。本文引入多视角的思想,对集成学习中的基分类器进行改进,通过从单视角生成多视角数据,弥补由于采样导致的数据损失,因而提高基分类器的分类性能。实验中证明,在不平衡率较高的时候,多视角方法对不平衡集成学习的分类性能有较好的提升。  第三,目前的不平衡分类问题中,多数是基于判别模型或者生成模型中的一种类型的机器学习模型进行研究的。但实际上,两种类型的学习模型可以结合起来,用于提高集成框架中的基分类器的性能。本文将生成模型Fisher核映射方法引入传统的线性分类器模型中,通过数据样本的统计参数分布为分类器提供先验信息,使得训练样本具有更好的判别特性。多视角子空间增加训练得到的基分类器的多样性,从而在集成中得到较高的分类性能。实验证明,该学习框架是有效的,同时可以将不同类型的线性分类器作为框架的基分类器以获得不同的分类效果。  本文方法通过综合现有算法优点,并且提出了同时考虑从多个层面对模型改进,从而构造不平衡分类框架,为分类器设计领域提供了一种新思路。可见本文方法是一个可用于分类器优化改进的学习框架,并具有较大的启发性和推广潜力。
其他文献
“异步单进程事件驱动代理服务器”是信息产业部“电子发展基金” 支持的“网络多功能服务器”项目下的一个子课题。当前Internet在迅猛发展,但网络带宽的增加与信息量和使用
流媒体应用有着与其他应用所不同的特点,在分析流媒体对存储系统的特别要求的基础上,深入研究了能大幅度提高其读性能的技术——改进的文件系统与RAID算法,设计并实现了其在
随着网络的飞速发展,通讯变得更加频繁,信息安全技术变得越来越重要。CSP(Cryptographic Service Provider)是微软公司提出的安全服务基本框架之一,它参照了ASN.1、PKCS等一系列
在网络计算时代,软件生产所面临的难题是需求的不定性和系统环境的高度开放性、复杂性。因此,从某种程度上讲,适应性成为现代软件最为重要的质量属性。目前,人们正试图使用Agent
存储区域网(SAN)是存储领域的一项重要技术,由存储服务器,存储设备和网络组成。大多数SAN采用SCSI协议作为不同存储设备的公共协议。运用IP和以太网技术,可以构建可扩展,易管
该文重点研究了基于间隔最大化原理的自动文本分类技术,以最新的机器学习理论成果为基础,提出并解决了与自动文本分类相关的多个重要理论与实践问题,发展与丰富了多项信息检
随着互联网技术的发展,计算机需要处理的数据量也越来越大。处理如此海量的数据,对计算机的性能提出了很高的要求,尤其在计算机视觉领域内,这种表现更加明显。海量的数据也会带来
本文提出了一种基于知识的医学图像辅助解释技术,并将该技术应用到医院的图像解释上,建造了医学图像辅助解释系统,从而验证了该技术的可行性。该系统旨在通过该技术的应用,有效地
电子商务正以前所未有的力量冲击着人们千百年来形成的商务观念与模式,它直接作用于商务活动,间接作用于社会经济的各个方面,推动着人类社会继农业革命、工业革命之后的第三次革
随着社会的飞速发展,科学技术的日新月异,准确有效的信息在社会生活中发挥着越来越重要的作用.计算机技术的发展和网络的普及,实现了信息处理的电子化和大范围的信息共享,企