大间隔分类学习研究现状

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:zxw123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在机器学习领域中,间隔扮演着重要的角色。可以用来度量分类的置信度;其理论泛化界也可用于指导分类算法的设计。近年来,该理论已广泛应用于特征选择,分类器训练和集成学习。实际上,间隔思想表明如果在训练阶段模型能够产生大的间隔,那么分类任务将有好的置信度和高可靠性。文中介绍大间隔分类学习方法的研究现状, 并给出了其存在的问题。
  关键词:间隔; 分类学习; 机器学习
  中图分类号:TP39141 文献标识码:A文章编号:2095-2163(2013)06-0044-04
  0引言
  在机器学习领域中,间隔扮演着重要的角色,可以用来度量分类器的置信度而其理论泛化界也可用于指导分类算法的设计。该理论已经广泛应用于特征选择、分类器构建、集成学习等领域。间隔的概念由Vapnik首次提出,并将其应用于构建支持向量机(Support Vector Machine)[1]。支持向量机利用最大分类间隔来实现线性分类任务。1999年,Friedman指出间隔分布是用来指导分类集成学习构造稳定模型的重要度量[2]。随着间隔的泛化界的提出,从统计学习理论上解释了最大分类间隔实际意义。实际上,间隔思想表明如果在训练阶段模型能够产生大的间隔,那么分类任务将有好的置信度和高可靠性。在过去的十几年中,该理论在模式识别和机器学习领域引起了高度关注。
  本文首先从特征选择、SVM分类器的构建和分类集成学习三个方法来阐述基于间隔方法的研究现状。在此基础上,给出了基于间隔分类学习中存在的问题并探讨其未来发展方向。
  1基于间隔的特征选择方法的研究现状
  近年来在机器学习领域,间隔作为代表性的特征评估策略之一已成为研究热点。间隔概念首次是由Vapnik 提出为了构建SVM模型,这是用最大化类间的分类间隔来寻找最优可分超平面。1999年,Shawe Taylor 和Cristianini在统计学习理论层面上证明了SVM中分类间隔是与其泛化误差的上界是紧密相关的[3]。2002年,Crammer等人讨论了Adaboost 算法中的分类泛化误差,并指出其VC维与基分类器间的间隔分布相关,从而将间隔理论进一步推广到集成学习范畴[4]。2004年,Gilad Bachrach等人开发了两种基于间隔特征选择方法,并通过大间隔理论证明了这两种方法的最近邻无限样本泛化界[5]。因此,从统计学习理论角度来看,分类间隔可认为是一种用于衡量分类置信度的距离测度。近年来,大量基于间隔的特征选择方法正在相继不断地提出。根据其构造方式不同,间隔可分为两类。一类称之为样本间隔(Sample Margin),用于度量样本到分类边界的距离;另一类假设间隔(Hypothesis Margin)则用来度量假设类别的距离。
  研究中,可以将基于间隔的特征选择方法大体分为三类。第一类是通过直接最大化间隔来进行特征选择,如Relief[6]、Simba[5]等等。第二类是通过最小化分类间隔损失来获得搜索特征子集最佳的解决方案。2004年,Andrew等人提出了两种基于Logistic 损失的特征选择方法并应用于SVM[7],其间分别采用了L1 范数和L2范数正则化技术;实验结果显示使用L1范数正则化方法相对而言是比较有效的。2008 年,Park等人提出了一种快速的特征选择方法[8],可利用Logistic损失来光滑近似Hinge损失并应用于支持向量机。2009 年,Li等人提出了一种基于近邻规则的特征选择方法[9]。最后一类是利用间隔分类器的启发式的特征选择方法,其中最具代表性的当属SVM-RFE等算法。这三类方法中,第一和第二类方法是基于Filter模型的方法,而且均是独立于分类器的评估特征方法并且执行效率较高;但第三类方法的计算时间复杂性较高,从而限制其实用性。
  2基于间隔的分类学习算法的研究现状
  至今为止,支持向量机(SVM)作为大间隔的分类学习模型在机器学习领域备受关注。SVM的思想是要找到一个线性可分超平面,并使用最大间隔来正确地区分二类训练数据,如此即可有效地减少对测试样本分类错误的风险。这种SVM可将其称作硬间隔SVM 。但是在训练阶段搜索最优超平面时,由于可分边界附近一些错分样本的影响,原有硬间隔SVM 中最大间隔的原则将失效。为了解决上述问题,软间隔SVM利用松散阈值来得到一个近似线性可分超平面,实现了最大化间隔并最小化松散阈值的和来最优化学习模型的参数。对于线性不可分问题,核函数(Kernal Function) 已经引入到SVM 模型构建中并获得巨大成功。基于核函数映射的SVM 是将原有的数据映射到一个高维特征空间中,并在其上构造最优分类超平面。
  随着支持向量机研究的深入,对于训练抗噪声的SVM学习模型展开了广泛的讨论。1999年,LS-SVM获得提出[10],可利用平方Hinge损失来替换软间隔SVM 中的Hinge损失来训练SVM。但在统计学习理论中,Hinge损失要比平方Hinge损失具有更好的鲁棒性和稀疏性。针对LS-SVM 中的鲁棒性较差的问题WLS-SVM[11] 也相继提出,利用了Hempel鲁棒估计获得平方损失的权值。2002年,Song等人利用样本到类别质心的平方距离来替代LS-SVM 中的平方损失,从而构建了一种鲁棒的SVM,并将其应用到弹孔图像分类[12]。2006 年,Xu等人将孤立点检测与大间隔理论相结合构造出一种斜坡损失来训练SVM,可以表达一个凸松弛损失训练问题并通过半定规划来求解[13]。2007年,Wu等人构造了一种截断的Hinge 损失,通过对远离该类的异常样本用不敏感损失值来惩罚,从而使其获得较好鲁棒性和较少的支持向量[14]。2008年,Wang等人利用Huber损失来光滑文献[13]中斜坡损失,然后在原始空间中训练支持向量机,但其中需调优的参数过多,从而限制了其实用性[15]。2010年,Ma等人将中位数回归引入到Hinge损失中并得到了一种鲁棒的支持向量机[16],对于两类分类问题总的损失惩罚由两个属于不同类的中位数损失的和来衡量。此外,许多研究者将模糊粗糙集理论引入到SVM 学习模型中来改善其鲁棒性,从而构建出许多模糊SVM模型(FSVM)[17-18]。这些研究的主要思想是通过计算样本附属于类别的隶属度来确定软间隔SVM中的Hinge 损失对该样本的松散系数, 由于隶属度较低的样本多为异常和噪声点,因此该模型可以有效改善噪声对SVM 模型的不良影响。FSVM一个致命的缺陷在于不能够给出一个通用化的原则来确定样本的隶属度值即SVM 损失项中样本的松散系数,而都是通过经验来选取模糊函数来计算隶属度。   3分类集成学习方法的研究现状
  集成学习的思想是训练多个弱学习器,并将其相应结合后来进行决策或预测,从而改善单个学习模型的预测能力。集成学习的实质是对多个学习器的结合方式进行研究。近年来大量有关文献被发表,这些文献详细地讨论了集成方法的理论依据以及实现过程。在过去的几十年中,涌现了大量的集成学习算法。Boosting[19]是被最广泛使用的一种提高分类学习准确度的集成方法,可视作一个模型平均方法。Boost-ing产生一系列的样本子集来训练基分类,每次训练样本子集中由基分类器错分的样本将给其分配更高的权值,从而提高在下一次基分类器训练生成的训练样本子集中抽取该错分样本的概率。如此迭代下去产生多个基分类器,最终的分类结果将由多个基分类器加权融合而获得。1992年,Wolpert 介绍了一种最小化泛化错误率的集成方法,被称作叠加法[20]。其思想是将基学习器分布在多个层次上,每一层中学习器的输出作为下一层的输入,利用多层的学习器来完成学习任务。1996年,Breiman 提出了Bagging(Bootstrap Aggregation) 集成方法[21]。Bagging最初是为决策树模型而设计的,但也可以使用在任何类型的分类或回归模型中。该方法通过Bootstrap采样从训练集中产生出多个训练子集,然后利用这些子集来分别训练一个基分类或回归模型。对于回归问题,Bagging的输出是多个回归模型预测值的平均;而对于分类问题则用投票法来决定样本的类别。1998年,Ho等人用随机子空间方法构建决策森林[22];在数据集中存在大量的特征时,该方法效果良好。Logitboost[23]是由Friedman等人提出一种Boosting算法,通过在分类器的迭代中使用Logistic 回归模型来确定样本的权值,而获得了良好的效果。原因在于Logistic 回归模型描述的是一个或多个因素之间的概率关系,对于Boosting算法而言迭代中样本的权值可以表示为一个概率形式。1999 年,Schapire介绍了一种Boosting算法叫做AdaBoost[24],通过分析其泛化界解释Boosting算法的潜在理论。同年,Friedman 将梯度思想[25]引入到Boosting学习中,在每个迭代中使用潜在损失函数的梯度为样本分配权值,由此设计出了一系列基于梯度的Boosting算法。之后,为了解决Adaboost 算法对噪声数据较敏感问题,Freund 等人提出了一种鲁棒的Boosting算法叫做Brownboost[26],该法利用无限水平近似技术来构造出一个鲁棒的损失函数,然后用其来计算在每次迭代过程中样本的权重。2003年,Kim等人分别用Bagging和Boosting来构建SVM分类集成系统[27],实验结果显示集成后的分类系统比传统的SVM 分类方法具有更好的分类性能。2005年,Rosset等人提出了一种利用样本的权衰减函数来改善基于梯度的Boosting方法的鲁棒性,这个权衰减函数融入了Huber估计的思想[28]。2008 年,Zhang等人提出了一个局部Boosting算法[29],这是一种基于重采样的AdaBoost方法,实验结果显示该算法比AdaBoost算法具有更好的稳健性。
  对于集成学习结合方式的有效性,许多学者进行了讨论。1999年,Opitz等人比较了Bagging和两个Boosting算法[30](AdaBoost,Arching),比较后发现在一个低噪声环境下,Boosting分类性能优于Bagging,但Bagging 的鲁棒性更强。2000年,Jain等人以一组分类器的结果如何结合改进总体分类精度为目标来讨论分类器组合方式问题[31]。研究者将这一问题针对不同的特征集,不同的训练样本集,不同的分类方法进行分析。实验结果显示对于相同的特征集,结合不同的分类器没有任何优势,但在不同特征集下构建出的分类系统却效果明显。同年,Kuncheva等人采用遗传算法设计了两个分类器融合系统[32],设计发现对于可能有重叠的特征子集,分类集成系统显现出良好的性能,但对于不相交的特征子集分类准确率却难以得到真正改善。2002年,Skurichina讨论了分类集成决策的稳定性问题[33],结果显示Bagging可以有效改善分类的稳定性。2007年,Anne等研究了基分类器的选择和融合方法对分类集成系统的影响问题[34],并得到一个重要的实验结论:选择各异的基分类器对提升分类集成系统的性能是有帮助的。
  4大间隔分类学习存在的问题
  目前,大间隔分类学习存在的主要问题有:
  (1)噪声是普遍存在的,基于间隔的特征选择方法对噪声比较敏感,未来对基于间隔的特征选择方法的抗噪性研究是一个很好的研究方向。
  (2)对于现有鲁棒的SVM分类学习方法而言,这些方法已经有效地解决了分类模型对噪声的影响,但其训练模型的时间复杂性较高,由此而限制了其实用性。这些问题,将有待于进一步研究。
  5结束语
  在机器学习领域中,间隔扮演着重要的角色,这是对分类置信度的一种刻画,可用于估计分类学习算法的泛化误差界和指导分类算法的设计。近年来,该理论已广泛应用于特征选择,分类器训练和集成学习。本文论述大间隔分类学习方法的研究现状,并给出了其存在的问题,为未来的研究有一定的指导意义。
  参考文献:
  [1]CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3):273–297.
  [2]SCHAPIRE R E, FREUND Y, BARTLETT P, et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. Annals of Statistics, 1998, 26:1651–1686.   [3]BARTLETT P, SHAWE-TAYLOR J. Generalization performance of support vector machines and other pattern classifiers[J]. Advances in Kernel Methods—Support Vector Learning, 1999:43–54.
  [4]CRAMMER K, GILAD R B, NAVOT A, et al. Margin Analysis of the Lvq Algorithm[C]//Proceeding 17th Conference on Neural Information Processing Systems, 2002:462–469.
  [5]GILAD-BACHRACH R, NAVOT A, TISHBY N. Margin based feature selection-theory and algorithms[C]//Proceedings of the 21st International Conference on Machine Learning, 2004:40–48.
  [6]KONONENKO I, RUAN D, FREUND Y. Estimating attributes analysis and extensions of RELIEF[C]//Proceedings of European Conference Machine Learning, 1994:171–182.
  [7]ANDREW Y N. Feature selection L1 vs. L2 regularization, and rotational invariance[C]//Proceedings of the 21st International Conference on Machine Learning, 2004:171–182.
  [8]PARK S Y, LIU Y. Robust penalized Logistic regression with truncated loss functions[J]. Canadian Journal of Statistics, 2011, 39(2):300–323
  [9]LI Y, LU B L. Feature selection based on loss-margin of nearest neighbor classification[J]. Pattern Recognition, 2009, 42:1914–1921.
  [10]SUYKENS J, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3):293–300.
  [11]SUYKENS J, BRABANTER J, LUKAS L, et al. Weighted least squares support vector machines: robustness and sparse approximation[J]. Neurocomputing, 2002,8:85–105.
  [12]SONG Q, HU W, XIE W. Robust support vector machine with Bullet Hole image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2002, 32(4):440–448.
  [13]XU L, CRAMMER K, SCHUURMANS D. Robust support vector machine training via convex outlier ablation[C]//Proceedings of the 21st American Association for Artificial Intelligence, 2006:413–420.
  [14]WU Y, LIU Y F. Robust truncated hinge loss support vector machines[J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2007, 102(479):974–983.
  [15]WANG L, JIAA H D, LI J. Training Robust support vector machine with smooth ramp loss in the primal space[J]. Neurocomputing, 2008, 71(479):3020–3025.
  [16]MA Y F, HUANG X L, WANG S N. Robust support vector machine using least median loss penalty [C]//Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, 2011:18–26.
  [17]JIANG X F, ZHANG Y, CHENG L J. Fuzzy SVM with a new fuzzy membership function[J]. Neural Computing
其他文献
本文通过对城市社区及社区服务的介绍,探讨了城市社区网络化服务体系的内容及技术架构,并在此基础上讨论了'数字福建'鼓楼示范区的社区建设内容及意义.给出社区网络
LG化学公司正在扩增新戊基乙二醇(NPG)能力,该公司投资20亿韩元(1740万美元)将使其在韩国丽水的NPG能力扩增20kt/a,达N50kt/a,成为仅次于巴斯夫和依士曼化学公司的世界第3位NPG生
摘要:远程程序执行的认证是可信计算的重要内容之一,文献中所提出的眾多框架大体上分为,基于软件,或基于硬件。初步地提出了一种远程程序执行的认证框架(命名为Spirit),Spirit综合地使用了程序分析、信任链、互模拟技术和TPM。  关键词:认证; TPM; 程序分析; 信任链  中图分类号:TP393 文献标识码:A文章编号:2095-2163(2013)02-0077-03  0引言  在计算
电子商务是一种新型的商务模式,在目前的市场当中,已经取得了十分广泛的应用。随着移动通信技术和无线网络技术的发展和应用,电子商务正在逐渐朝着移动商务的方向发展。在当前的移动商务领域当中,二维码的应用正在受到越来越多人的重视和关注。本文结合二维码的基本概念和特点,对二维码电子凭证在移动商务中的应用进行了研究。
My name is Kate Green. I am an English girl. I'm twelve.I'm in No. 6 Middoe School, I'm in Class Two, Grade One. My English teacher's name is Mi
为实现物联网中海量物品注册信息的权限访问控制并保证物品注册信息的有效性,首先提出基于哈希碰撞的实物注册服务器选择方法实现物品注册信息的存储;在物品注册过程中根据用户规定物品注册信息的可见度,实现对用户的授权;同时,采用一种强注册信息的管理方法保证注册信息的有效性。
如何发挥科普示范社区的示范引领和辐射带动作用,落实《全民科学素质行动计划纲要》,中国科协、财政部联合实施的“社区科普益民计划”是创新之举,可见一斑。本文以全国科普示范
“天府科普大讲堂”开办至今已有151讲,已经在科协系统和部分民众心目中打下了烙印。为了让大讲堂在更多民众的心目中扎根,真正成为他们生活中不可或缺的伙伴,成为更多民众知晓
一、飞来横祸1993年7月,山清水秀的闽东著名舍乡──福安市报中乡南城村一派田园风光,田野里三三两两地点缀着农民们躬身劳作的身影。18日下午4时,61岁的钟光寿老汉偕其妻雷益妹
介绍了新技术在高分子阻燃领域的应用,其中包括微胶囊化技术、纳米技术、无机阻燃剂的改性技术以及阻燃剂的复配技术,并指出了阻燃剂领域未来研究方向.