多视角框架下的不平衡集成分类器的设计与研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户：lmj1103

【摘要】

：

分类器是机器学习中最基本的一种算法，它用于对未知样本进行预测和分类。在常规应用已经有很多研究学者提出了不同方法，并取得很好的分类性能。但现实中还存在着很多在每个类别

【作者】

：

陈钊志

【机构】

：

华东理工大学

【出处】

：

华东理工大学

【发表日期】

：

2018年期

【关键词】

：

分类器采样方法集成学习核映射

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类器是机器学习中最基本的一种算法，它用于对未知样本进行预测和分类。在常规应用已经有很多研究学者提出了不同方法，并取得很好的分类性能。但现实中还存在着很多在每个类别中样本数目差异大的数据分类问题，使用通常的分类模型进行训练得到的分类器可能会忽视样本较少的类别，然而这些样本较少的类别却在实际中需要人们更多的关注。这种问题称为不平衡分类问题。现有的不平衡分类算法主要分为采样，与代价敏感的方法，还有一部分混合使用集成学习的方法。本文从解决不平衡分类问题的策略出发，结合现有的多种针对不平衡的方法，同时设计多视角学习和集成框架来克服传统不平衡分类方法的缺点提高分类性能。本文首先提出采样与集成策略下的多视角熵学习模型(Multi-view Entropy Discriminant Learning with Sampling and Ensemble Strategy，MEDL);其次，从生成模型与判别模型融合的角度，基于Fisher核映射的方法和多视角子空间集成学习提出了基于Fisher核的双重采样多视角模型(Fisher Kernel-based Multi-view Learning with Bi-Bagging，FKML)。本文贡献有如下三点:　　第一，目前的不平衡算法主要以算法的单个方面为出发点进行方法的改进，一般为采样方法的改进，分类模型的目标函数的改进，以及单个分类框架的改进。因此本文从多个方面同时出发，首先通过结合采样方法来构造平衡的子训练集，用于训练基分类器，同时通过针对基分类模型设计局部熵，使得训练得到的基分类器模型更关注对分类有用的样本，从而提高基分类器的能力，再通过集成方法提升整体分类器的分类性能。　　第二，传统集成方法中的基分类器大多是基于单视角数据而训练的。但由于采样方法对训练样本的信息造成损失，从而使得样本的数量可能因为过少，不足以训练一个有效的基分类器。本文引入多视角的思想，对集成学习中的基分类器进行改进，通过从单视角生成多视角数据，弥补由于采样导致的数据损失，因而提高基分类器的分类性能。实验中证明，在不平衡率较高的时候，多视角方法对不平衡集成学习的分类性能有较好的提升。　　第三，目前的不平衡分类问题中，多数是基于判别模型或者生成模型中的一种类型的机器学习模型进行研究的。但实际上，两种类型的学习模型可以结合起来，用于提高集成框架中的基分类器的性能。本文将生成模型Fisher核映射方法引入传统的线性分类器模型中，通过数据样本的统计参数分布为分类器提供先验信息，使得训练样本具有更好的判别特性。多视角子空间增加训练得到的基分类器的多样性，从而在集成中得到较高的分类性能。实验证明，该学习框架是有效的，同时可以将不同类型的线性分类器作为框架的基分类器以获得不同的分类效果。　　本文方法通过综合现有算法优点，并且提出了同时考虑从多个层面对模型改进，从而构造不平衡分类框架，为分类器设计领域提供了一种新思路。可见本文方法是一个可用于分类器优化改进的学习框架，并具有较大的启发性和推广潜力。

其他文献

异步单进程事件驱动代理服务器

“异步单进程事件驱动代理服务器”是信息产业部“电子发展基金” 支持的“网络多功能服务器”项目下的一个子课题。当前Internet在迅猛发展,但网络带宽的增加与信息量和使用

学位

Web代理单进程事件驱动实时信号非阻塞I/O代理缓存

面向流媒体应用存储系统的研究与实现

流媒体应用有着与其他应用所不同的特点,在分析流媒体对存储系统的特别要求的基础上,深入研究了能大幅度提高其读性能的技术——改进的文件系统与RAID算法,设计并实现了其在

学位

流媒体存储系统设备驱动程序冗余独立磁盘阵列邮箱机制文件系统

基于CSP的信息安全服务

随着网络的飞速发展，通讯变得更加频繁，信息安全技术变得越来越重要。CSP(Cryptographic Service Provider)是微软公司提出的安全服务基本框架之一，它参照了ASN．1、PKCS等一系列

学位

CSP的设计与实现密码算法散列算法CSP的测试

用Agent连接件提高软件体系结构适应性研究

在网络计算时代，软件生产所面临的难题是需求的不定性和系统环境的高度开放性、复杂性。因此，从某种程度上讲，适应性成为现代软件最为重要的质量属性。目前，人们正试图使用Agent

学位

多Agent系统Agent连接件适应性软件体系结构

跨平台、多用户iSCSI存储系统及性能改进

存储区域网(SAN)是存储领域的一项重要技术,由存储服务器,存储设备和网络组成。大多数SAN采用SCSI协议作为不同存储设备的公共协议。运用IP和以太网技术,可以构建可扩展,易管

学位

存储区域网互联网小型计算机接口小型计算机接口内存缓存

基于机器学习的自动文本分类研究

该文重点研究了基于间隔最大化原理的自动文本分类技术,以最新的机器学习理论成果为基础,提出并解决了与自动文本分类相关的多个重要理论与实践问题,发展与丰富了多项信息检

学位

文本分类信息检索机器学习间隔最大化支持向量机

结合稀疏性的特征学习方法研究与应用

随着互联网技术的发展，计算机需要处理的数据量也越来越大。处理如此海量的数据，对计算机的性能提出了很高的要求，尤其在计算机视觉领域内，这种表现更加明显。海量的数据也会带来

学位

稀疏性低秩表示特征选择聚类分析图像修复

医学图像的计算机辅助解释技术的研究与设计

本文提出了一种基于知识的医学图像辅助解释技术，并将该技术应用到医院的图像解释上，建造了医学图像辅助解释系统，从而验证了该技术的可行性。该系统旨在通过该技术的应用，有效地

学位

医学图像DICOM知识工程辅助解释

多Agent协同机制及其在电子商务供应链管理中的应用研究

电子商务正以前所未有的力量冲击着人们千百年来形成的商务观念与模式，它直接作用于商务活动，间接作用于社会经济的各个方面，推动着人类社会继农业革命、工业革命之后的第三次革

学位

电子商务供应链管理Agent协同TOAC协同模型协同e-SCM系统XACL语言异构平台

一个政府采购系统的设计与实现

随着社会的飞速发展,科学技术的日新月异,准确有效的信息在社会生活中发挥着越来越重要的作用.计算机技术的发展和网络的普及,实现了信息处理的电子化和大范围的信息共享,企

学位

管理信息系统政府采购数据仓库

多视角框架下的不平衡集成分类器的设计与研究

与本文相关的学术论文