浅谈度量学习

来源 :科技信息·中旬刊 | 被引量 : 0次 | 上传用户:lwfpa1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文主要介绍了一种常用的机器学习方法——度量学习。度量学习旨在学得一个合适的距离来优化分类器的性能,提高分类器的效率。本文對度量学习的基本概念做简介,并分析5E38见的度量学习形式和方法,最后讨论了一些度量学习研究中的前沿问题。
  关键词:度量学习
  一、度量学习简介
  在机器学习任务中,样本之间的距离是一个十分重要的因素,绝大多数机器学习模型和算法都直接或间接地使用了样本之间的距离。比如,在常见的“K近邻”分类器中,样本间的距离很大程度上影响了最终分类效果的好坏[1]。实际上,几乎所有分类算法都可以在某个特定的距离下等价于“近邻分类器”。在机器学习任务中,我们也常常通过特征选择、特征提取等手段来对寻找数据更好的表示,或是达到降维的目的,而寻求数据更好的表示或降维最终是为了在得到的子空间中学习,这本质上就是基于子空间中的距离进行学习。既然如此,我们完全可以直接寻找一个合适的距离,并利用这个学到的距离来完成各种任务。可以说,各种特征选择、特征提取和表示学习方法都相当于是在做度量学习。总而言之,度量学习的目的就是寻找一个合适的距离定义,使得在这种距离定义下,相似样本离得较近,而不相似样本离得较远,进而来优化某个机器学习任务。
  距离往往用来衡量对象之间的相关性。常见的距离有欧几里得距离、马氏距离[2]、余弦距离、曼哈顿距离等。一般来讲,距离度量是一个二元函数,它需要满足四个条件:非负性、自反性、对称性和三角不等式。若某个二元函数d满足非负性、对称性和三角不等式,且,则称d为一个“伪距离度量”,它具有距离度量的大部分性质,也常用于机器学习任务。
  二、基于马氏距离的度量学习
  为了能够学得一个合适的距离,首先必须将距离“参数化”,即使用某些参数来定义一个距离函数。最常用的选择是“马氏距离”,它相当于考虑样本各个特征权重和特征间相关性的欧式距离,定义为:
  其中我们要求矩阵是一个半正定矩阵,即学到的马氏距离实际上是一个“伪度量”。要学一个马氏距离,实际上就是要学一个矩阵。如此一来,我们就可以依据这样一种距离的定义形式来构造各种优化问题,从而完成各种机器学习任务。一般来说,基于马氏距离的度量学习任务可以以优化问题的形式描述为:
  其中L是某个关于的目标函数。比如说,训练样本给我们提供了一些弱监督信息,即某些样本是相似的,某些样本是不相似的。设P表示相似样本对构成的集合,即若y)∈P本X和Y是相似的;设N表示不相似样本对构成的集合,即若y)∈N本X和Y是不相似的。现在我们希望在学到的距离下,相似样本间的距离较小而不相似样本间的距离较大,那么可以将优化问题构造为:
  上式表示我们希望寻找一个矩阵,使得在这种马氏距离下,相似样本的距离之和尽量小,而不相似样本的就离之和尽量大。有时,我们只需要不相似样本之间的距离达到某个既定的阈值即可,而不需要其尽量大,那么优化问题可以写为:
  这相当于对原优化问题的第二项取“hinge”损失。由于通过这样一种方式学得的距离考虑了数据提供的弱监督信息,使得相似样本距离小而不相似样本距离大,所以往往可以提高分类器的性能。
  前文说到,使用降维方法本质上是在学习某种特定的距离度量,而马氏距离也可以认为是对原空间的样本做映射之后的欧式距离。设原数据样本∈R^D,矩阵,那么它可以将数据样本映射为R维。在映射后的空间中,两个样本X和Y之间的欧式距离为:
  若将替换为一个矩阵,那么就得到了与马氏距离相同的形式。我们可以将直接使用马氏距离表示的度量学习问题称为“Mahalanobis Distance Metric Learning”,简称为“MDML”[3],而将基于映射矩阵的度量学习问题称为“Projection Distance Metric Learning”,简称为“PDML”。我们可以看出,一旦学得了映射矩阵就可以获得相应的马氏距离矩阵,也就是说这两种表示之间是相通的,但在使用时仍有一些区别。从优化的角度来讲,若使用“MDML”,则目标函数往往是关于矩阵的线性函数,虽然相似样本间的距离和不相似样本间的距离符号相反,但线性函数必定是凸函数,这使得我们往往可以构造关于矩阵的凸优化问题。若使用“PDML”,目标函数往往是关于矩阵P的二次函数,而且相似样本间的距离和不相似样本间的距离符号相反,虽然凸函数的非负线性加权仍是凸函数,但前后两部分的凹凸性相反,从而整个优化问题的凸性得不到保证。凸优化问题在求解时有很好的性质,比如必定可以找到全局最优解等。也就是说,使用“MDML”更方便于优化。但是,从映射矩阵的角度考虑问题也有其意义,比如可以考虑映射的正交性,可以降低计算开销等。
  三、度量学习中的前沿问题
  度量学习是一个十分值得研究的话题,度量学习领域中也存在一些待解决的问题。本部分将介绍一些关于度量学习可能的研究主题。
  考虑多个度量的学习。度量学习的最终目的是提高分类器的性能,一个具体的距离度量就好比是一种空间变换,或是一种特征提取的方法。我们知道,某个单一的简单的学习器可能不会具有特别号的效果,受此启发,我们可以在度量学习中引入多个不同的距离,对不同类的样本设计不同的距离度量,甚至对每一个样本都设计一个特定的距离度量。实际上这一思路在机器学习中十分常见,比如“Gaussian Mixture”,比如“Ensemble”。可以这样的角度来理解多度量学习:不同的类的样本会来自不同的分布,而不同的分布会具有不同的规律,也就具有不同的适用于分类的特征,所以使用多度量是合理的。另外,从映射矩阵的角度来考虑,学习一个马氏距离相当于学习一个线性映射,而简单的线性关系未必能很好地刻画数据之间的联系,通过引入多个线性变换,可以使得模型具有更强的表示能力。
  参考文献:
  [1]彭凯,汪伟,杨煜普.基于余弦距离度量学习的伪K近邻文本分类算法[J],上海交通大学自动化系系统控制与信息处理教育部重点实验室,2014
  [2]梅江元.基于马氏距离的度量学习算法研究及应用[J],哈尔滨工业大学,2016
  [3]杨绪兵,王一雄,陈斌.马氏度量学习中的几个关键问题研究及几何解释[J],南京林业大学信息科学技术学院,扬州大学信息工程学院,2013
其他文献
摘要:本文首先对燃气输配管道泄漏事故的类型进行简单介绍,了解燃气输配管道泄漏事故的基本情况,重点分析导致燃气输配管道发生泄漏的原因,在此基础上深入研究控制燃气输配管道发生泄漏事故的措施,希望通过本文的研究能够更加全面的掌握关于燃气输配管道泄漏的基本情况,同时也为后期更好的防止燃气输配管道发生泄漏事故提供参考。  关键词:燃气;输配管道;泄漏事故  1引言  近年来随着经济社会的不断发展,我国城市化
期刊
摘要:现代社会对生产的第一个要求就是安全,煤矿在实际生产过程中也要注意对这一要求进行满足。在经济与社会不断发展的推动之下,能源需求量也呈现出逐渐增加的趋势,这可在一定程度上对能源供应的压力进行缓解。本文主要对煤矿采掘工作面爆破安全技术进行研究,这对煤矿开采工作的顺利进行有极大的促进作用。  关键词:煤矿采掘;工作面;安全爆破技术  一、煤矿采掘爆破事故的原因分析  1.工作人员缺乏安全意识  造成
期刊
摘要:伴随着国企数量的大幅缩减和私营经济的蓬勃发展,中国经济发展的中心任务已经从盘活国企,转变为盘活整个国民经济,通过充分挖掘各市场主体的生产动力,来推动社会生产水平的提高和经济的发展。在混合所有制改革的研究中,不少学者借力改革来化解我国市场中妨碍竞争的种种问题,如政府过度干预、市场开放程度等。对于作为重要主体的民企的生存发展状况和民营经济主体的权益保护也给予了更多的关注。  关键词:混合所有制改
期刊
摘要:文章简单介绍整体节点技术概念和发展现状,分析整体节点制作技术的焊接方式、结构及焊接要求等,重点分析其技术难点,并针对难点提出相应的钢桁梁焊接整体节点的制作工艺。  关键词:钢桁梁;焊接;整体节点  1引言  钢桁梁整体节点技术是目前国内桥梁建设中应用最广泛的制造技术,就是将钢桁梁的节点板和弦杆进行焊接的一种技术,主要应用与跨度较大的连续桁架桥和简支桁架桥等桥梁的建设中,如长江大桥、新桂川大桥
期刊
摘要:摄影是用光线描写反映世间万物,其定义在不同书中,解释也不同,因此至今为止,也没有统一的定义。即便如此,也丝毫不影响摄影在人们生活中所发挥的作用,可以说摄影渗透在人类生活的方方面面,而平面设计作为一种艺术行为,多年来一直受新思维、观念以及媒体、材料的影响。只要设计活动需要,任何视觉元素都可以被拿来使用,当然也包括摄影,想要进一步增强摄影效果,深入研究摄影艺术与平面设计之间的联系是非常必要的。 
期刊
摘要:在科学技术不断革新,经济不断发展进步的基础上,配电网规划中开始采用智能配电网技术,这种技术形式融入高新科学技术内容,对配电网规划起到非常重要的作用。当前这种技术形式的应用很好的提高了配电网的供电效率,并且还提升了配电网的基本运行,保证其安全性,为配电网规划运行提供更高的保障。配电网在规划期间,需要清晰掌握市场发展以及对供电网现代化的要求,积极满足社会环境的需求,才能提升自身的市场竞争力,同时
期刊
摘要:随着我国科学技术的不断发展,现代机械制造业也有了很好的机会不断地去发展壮大,机械制造的水平和技术也不断的得到进步,传统的机械制造的方法已经渐渐不能满足社会发展的需要,而新型的现代机械制造工艺被越来越多的运用。本文研究了现代机械制造工艺与精密加工技术的相关问题。  关键词:现代机械制造工艺;精密加工技术;研究  引言  自从我国改革开放以来,经济水平直线提升,人民生活质量也得到提高,在日常生活
期刊
摘要:为了研究火电厂锅炉燃烧过程中产生的问题及其相关节能减排问题,提出相关优化技术。就火电厂锅炉燃烧优化的必要性展开讨论,根据笔者多年电力工作经验,通过国内外同等锅炉燃烧过程中问题对比。总结出通用实验法优化法、基于火焰检测技术的燃耗优化、燃烧设备的改进优化三种火电厂锅炉燃烧优化的主要技术。最后就相关技术的具体运用与发展展开论述,为电力工作同行提供建设性意见。  关键词:火电厂;锅炉;燃烧;优化  
期刊
摘要:基层农业技术推广不但可以促进农村经济实现快速发展,同时还能增加农民经济收入,对于实现农村的可持续发展目标有着十分重要的作用。但是从目前的实际情况可以看出,基层农业技术在推广过程中还存在着一定的缺陷,很多科技成果以及农业技术的作用都没有得到充分的发挥,这将对农村的现代经济建设造成严重影响。本文主要针对基层农业技术推广过程中存在的问题进行了分析,并结合实际情况提出了一些有效的应对措施。  关键词
期刊
摘要:为了有效的提升抢修工作的效率,加大作业现场安全的监管力度,可以利用微信平台开发一种在线审批工具,利用该工具实现10kV配网紧急抢修及施工作业的在线启动、审批、监管等一些列功能。这种基于微信平台开发的在线审批工具可以很好的解决电力紧急抢修和施工作业存在的一些问题,改善传统作业审批速度慢、流程复杂的弊端。  关键词:微信开发;移动审批;业务流程;施工作业  当今社会生活的主要能源来自于电力的供应
期刊