论文部分内容阅读
近年来,多核学习逐渐成为机器学习领域的研究热点之一,其通过多个候选核函数的组合来替代单个核函数,巧妙地将核函数的选择问题转化为核组合系数的学习问题,同时增强了核方法对问题的刻画能力,有效地提升了核模型的泛化性能。但是,现有的大多数多核学习方法都是基于两类分类问题而设计的,而现实世界中的许多学习问题往往归结为多类分类问题。因此,将多核学习从两类分类问题推广到多类分类问题是很有必要的。现有的多类多核学习方法,大多是利用一对一或一对多的策略来处理多类分类问题,并且为所有类学习出一个相同的核组合。然而,现实问题数据往往存在类间差异性,即每一个类的数据可能服从不同的分布或者其特征空间不一致。如果仅为所有类学习一个相同的核组合,那么所有的数据只能通过同一个分布进行映射或映射到同一个特征空间,这么做显然是不合理的。针对这一问题,我们在多核学习框架中引入了类间差异性,即为每一个类学习一个不同的核组合。从这一思路出发,我们进一步提出了基于类间差异性的稀疏多核学习方法LMKLDC和基于类间差异性的多类大间隔稀疏多核学习方法M3_LMKLDC.本文的工作主要体现在以下方面:(1)分析了在多核学习框架中考虑类间差异性的必要性。考虑到现实问题中的数据往往来自不同的数据源,每一类的数据可能会服从不同的分布;而现有的多核学习方法大都是为所有类学习一个相同的核组合,因此所有类别的数据只能一起映射到同一个特征空间。这显然会导致模型不能很好地刻画多个类别之间的差异性,也约束了模型的表达能力,从而降低了模型的泛化性能。(2)提出了基于类间差异性的稀疏多核学习方法LMKLDC. LMKLDC在多核学习框架中引入了类间差异性,旨在为每一个类学习不同的核组合;同时,通过约束核组合系数lp-范数(0<p≤1)形式的正则化项来提高模型的稀疏性,降低了模型的复杂度。针对所提出的模型,进一步设计出了一种Two-stage的优化算法。(3)提出了基于类间差异性的多类大间隔多核学习方法M3_LMKLDC。M3_LMKLDC采用更加适用于多类分类问题的多类间隔,包括多类Hinge-loss损失函数和最大化多类核间隔,充分利用了类间的有效信息。同时,考虑类间差异性,为每一个类学习不同的核组合,并利用lp-范数(0<p≤1)约束的稀疏性来降低模型的复杂度。对比实验验证了方法的有效性。