基于类间差异性的多类多核学习研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:duchze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,多核学习逐渐成为机器学习领域的研究热点之一,其通过多个候选核函数的组合来替代单个核函数,巧妙地将核函数的选择问题转化为核组合系数的学习问题,同时增强了核方法对问题的刻画能力,有效地提升了核模型的泛化性能。但是,现有的大多数多核学习方法都是基于两类分类问题而设计的,而现实世界中的许多学习问题往往归结为多类分类问题。因此,将多核学习从两类分类问题推广到多类分类问题是很有必要的。现有的多类多核学习方法,大多是利用一对一或一对多的策略来处理多类分类问题,并且为所有类学习出一个相同的核组合。然而,现实问题数据往往存在类间差异性,即每一个类的数据可能服从不同的分布或者其特征空间不一致。如果仅为所有类学习一个相同的核组合,那么所有的数据只能通过同一个分布进行映射或映射到同一个特征空间,这么做显然是不合理的。针对这一问题,我们在多核学习框架中引入了类间差异性,即为每一个类学习一个不同的核组合。从这一思路出发,我们进一步提出了基于类间差异性的稀疏多核学习方法LMKLDC和基于类间差异性的多类大间隔稀疏多核学习方法M3_LMKLDC.本文的工作主要体现在以下方面:(1)分析了在多核学习框架中考虑类间差异性的必要性。考虑到现实问题中的数据往往来自不同的数据源,每一类的数据可能会服从不同的分布;而现有的多核学习方法大都是为所有类学习一个相同的核组合,因此所有类别的数据只能一起映射到同一个特征空间。这显然会导致模型不能很好地刻画多个类别之间的差异性,也约束了模型的表达能力,从而降低了模型的泛化性能。(2)提出了基于类间差异性的稀疏多核学习方法LMKLDC. LMKLDC在多核学习框架中引入了类间差异性,旨在为每一个类学习不同的核组合;同时,通过约束核组合系数lp-范数(0<p≤1)形式的正则化项来提高模型的稀疏性,降低了模型的复杂度。针对所提出的模型,进一步设计出了一种Two-stage的优化算法。(3)提出了基于类间差异性的多类大间隔多核学习方法M3_LMKLDC。M3_LMKLDC采用更加适用于多类分类问题的多类间隔,包括多类Hinge-loss损失函数和最大化多类核间隔,充分利用了类间的有效信息。同时,考虑类间差异性,为每一个类学习不同的核组合,并利用lp-范数(0<p≤1)约束的稀疏性来降低模型的复杂度。对比实验验证了方法的有效性。
其他文献
重音是一种重要的韵律特征,在目前比较常用的汉语重音检测方法中,根据特征大致可以分为三类,一类是基于声学特征的检测方法;另一类是基于语法特征的检测方法;还有一类是融合
随着近年来软件行业的蓬勃发展,软件测试作为保证软件质量和可靠性的重要保障,在软件开发中起着不可替代的作用,逐渐成为近年来研究的热点之一。传统的手工生成测试数据的方
本体对于语义Web的发展至关重要。随着语义Web的发展,基于本体的应用越来越多。本体匹配就是一个发现不同本体之间映射关系的过程,如今本体匹配已经发展成语义Web研究中的一个
计算机信息化管理在民航业已得到广泛的应用,从民航各信息系统的特点来看,存在环境异构、数据与业务无法有效共享、跨平台集成困难等急需解决问题,为实现准确反馈和优化调度的目
文本分类是处理和组织大量文本数据的关键技术。在文本分类中,特征空间的维数高达几万,导致样本统计特性的评估变得十分困难,甚至会降低分类模型的泛化能力,出现“过学习”的
随着Internet的持续飞速发展,各种新兴服务和应用不断涌现。为了提高传输效率,IP组播技术被提出并得到了一致肯定。与此同时,VPN技术也在Internet范围内得到了广泛应用,而且随着V
随着网络技术的飞速发展,人们对计算机网络的依赖与日俱增。但是开放的网络环境就像一把双刃剑,在带给人们无限方便的同时,也对数据的安全构成了巨大的威胁。入侵检测和恶意
IP协议己成为下一代无线通信网络的核心协议之一,但对无线网络来说,IP分组信头过大,严重地浪费了宝贵的无线带宽,因此,必须对IP分组信头进行压缩,提高无线带宽利用率。 对于移动
变电站实施综合自动化后,全部告警信息上送到后台监控中心,告警信息都是按照时间顺序显示,发生事故时各种信号动作很频繁,值班人员容易遗漏重要的信号。因此,迫切需要在监控系统运
对基于结构化的Peer-to-Peer 覆盖网络的流媒体服务而言,如何构造一个拓扑感知、结点加入和退出时维护开销较小的流媒体体系是一个关键问题。DHT算法的最大问题是DHT的维护机