基于特征迁移与模型迁移的分类器设计

来源 :中国矿业大学 | 被引量 : 20次 | 上传用户：aiyi23_2008

【摘要】

：

互联网时代,信息自动分类技术已经成为人类获取有价值信息的重要工具,也是机器学习、模型识别和数据挖掘等领域研究的核心。如何采用机器学习方法构建高性能分类器,已成为人

【作者】

：

臧绍飞

【出处】

：

中国矿业大学

【发表日期】

：

2017年01期

【关键词】

：

特征迁移模型迁移迁移学习分类器领域分布差异

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网时代,信息自动分类技术已经成为人类获取有价值信息的重要工具,也是机器学习、模型识别和数据挖掘等领域研究的核心。如何采用机器学习方法构建高性能分类器,已成为人工智能领域广泛研究的问题。然而,随着问题的深入研究以及应用领域的拓展,传统机器学习方法逐渐暴露出许多不足。其中,对其影响最大的是:它要求训练数据集与测试数据集的样本概率分布相一致,这一要求在现实应用中通常难以满足。迁移学习的出现克服了这一不足,它借助一个或者多个与当前任务领域(目标领域)存在分布差异但又有一些内部联系的相关领域(源领域)知识,来帮助目标领域分类器进行学习,实现领域间的知识转移,成为了新的研究框架。迁移学习丰富了机器学习理论,拓展了其应用范围,逐渐成为一个新的研究方向。本文以设计高性能分类器为目的,以迁移学习为研究对象,从构建特征迁移分类器与模型迁移分类器两个角度出发,通过对领域间分布差异度量、半监督迁移、柔性投影约束、神经网络模型迁移以及知识迁移与分类器统一优化等问题进行研究与探索,提出了7种基于迁移学习的分类器。主要研究内容如下:1.基于领域间分布差异度量的特征迁移分类器。首先,针对传统领域间分布差异度量方法忽略单个样本对全局度量贡献差异性而影响特征迁移算法性能的问题,提出两种算法:基于最大分布加权均值差异的联合分布调整与基于样本局部判别权重的加权迁移成分分析。它们分别采用白化余弦相似性度量与局部近邻圆为源领域和目标领域所有样本设计相应的权重,将此权重引入最大均值差异度量中,体现样本个体在度量中的差异性。在此基础上,结合联合分布调整,来缩小领域间的边缘分布差异与条件分布差异,实现知识的跨领迁移。此外,基于样本局部判别权重的加权迁移成分分析算法还将线性判别分析引入目标函数,在实现知识迁移的同时,提高算法的类别可分性;其次,针对传统领域间分布差异度量方法存在内存消耗大,无法体现样本间差异性等不足,提出跨领域均值逼近差异度量方法,它通过测量源领域与目标领域样本到对方领域样本均值点的距离平方总和,来度量领域间的分布差异。在此基础上,结合子空间学习,提出特征迁移算法:跨领域均值联合逼近嵌入。它以跨领域均值逼近差异度量作为目标函数,通过标签迭代精化机制,实现领域间边缘分布差异和条件分布差异的共同调整,完成知识的跨领域迁移。最后,将上述特征迁移算法与基准分类器相结合用于分类实验,验证所提算法的有效性和优越性。2.基于半监督与柔性投影约束的特征迁移分类器。首先,针对传统特征迁移算法对样本原始结构信息与标签信息利用不足的问题,提出算法:基于跨领域均值约束的半监督迁移判别分析。它将半监督判别分析与联合分布调整相结合,并引入跨领域均值约束机制,在实现知识迁移的同时,充分利用样本的原始结构信息与标签信息,提高算法的分类性能;其次,针对传统特征迁移算法在特征子空间转换过程中投影过于刚性且对领域间自身几何结构和标签信息利用不充分的问题,提出算法:半监督柔性联合分布调整。它将柔性投影约束引入联合分布调整中,改善共享特征子空间性能;同时结合流形对齐与线性判别分析,在知识迁移过程中充分利用数据的原始结构信息和标签信息,来提高算法的分类精度。最后,将上述特征迁移算法与k近邻分类器相结合用于分类实验,验证算法的有效性和优越性。3.基于极限学习机与Softmax回归的模型迁移分类器。作为一种单层前馈神经网络,极限学习机(ELM)在模式识别与机器学习领域已经被证明是一种高效的学习机制。然而,在标记训练样本数量较少的情况下,极限学习机的性能会下降。为此,设计一种具有知识迁移能力的极限学习机:基于输出权重对齐的迁移极限学习机,它通过分别对齐源领域与目标领域间的ELM输出权重矩阵,来缩小领域间的分布差异;同时,在目标函数中加入领域间ELM输出权重矩阵的逼近项,实现知识的跨领域迁移;最后,将目标函数转化为最小二乘问题进行求解,并执行分类任务;为实现知识迁移过程与分类器训练过程的统一优化,设计一种具有知识迁移能力的分类器:迁移Softmax回归。它通过将联合分布调整机制引入Softmax回归目标函数中,构建具有知识迁移能力的分类器;然后采用梯度下降法对新的目标函数进行求解,实现分类模型参数与知识迁移过程的统一优化;最后,通过分类实验验证上述分类器的有效性和优越性。

其他文献

南宁市临终关怀现状与对策研究

目的：本文通过调查南宁市医务人员及市民临终关怀的现状,了解医务人员从事临终关怀的认知、态度、意愿,了解市民对临终关怀的认知、态度和需求现状,了解南宁市临终关怀发展的

学位

南宁市临终关怀现状对策

论传统司法对量刑规范化的启示——以刑事被告与被害人的关系为视角

当前,量刑规范化的试点工作已在全国推开。科学确定各种常见量刑情节及其对基准刑的调节幅度,为最高法院补充、完善各种量刑情节的适用提供参考,是法学理论界和司法实务部门

期刊

量刑亲属伦理责任分配补偿关系

犬膀胱结石的临床诊治

犬膀胱结石是指膀胱中的无机盐或有机盐类结晶的凝结物,即结石或多量结晶刺激膀胱黏膜而引起阻塞和出血性炎症的一种泌尿器官疾病。笔者与2012年在九台市动物医院遇到一例疑

期刊

犬膀胱结石x-射线诊断手术治疗

基于IPA方法的虚拟展会参展商满意度分析——以中国国际投资贸易洽谈会“网上投洽会”为例

<正>近年来,我国展览业发展迅速,据中国会展经济研究会的最新统计,2016年我国境内共举办展览会9892个,相对于2011年的7330个,增长了约35%;同时,展览面积已达到13075万平方米,

期刊

数量和质量参展商满意度投洽会IPA

幽门螺杆菌感染的治疗进展

幽门螺杆菌(Helicobacter pylori),简称Hp,是一种定植于胃粘膜上皮表面的螺旋形弯曲的微需氧菌。自1983年Marshall和Warren发现以来,大量的研究表明,幽门螺杆菌不仅与慢性活

期刊

幽门螺杆菌根除口腔洁治疫苗基因多态性

大学生社会实践项目化运作的思考

当前大学生社会实践中存在着"缺少科学的规划与指导"、"目标过于宏大"、"机制不够完善"、"经费投入不足"等问题。大学生社会实践应引入项目化运作模式,把大学生社会实践的内

期刊

大学生社会实践项目化对策

谈麻黄之发汗

<正> 大致缘于《伤寒论》,后世对麻黄使用非常审慎,唯恐过汗亡阳。其实,麻黄是否能引起过汗亡阳,不在药,而在用。这是因为仲景对运用麻黄嘱防过汗是以体质强弱与病气虚实为标

期刊

麻黄汤

糖尿病肾病的血液透析临床护理价值分析

目的将有效的护理措施应用在糖尿病肾病血液透析患者中,分析所取得的临床效果。方法将本院在2017年8月至2018年1月收治的糖尿病肾病患者共计50例作为研究对象,将全部患者分为

期刊

糖尿病肾病血液透析护理效果

从水墨人物画的历史看刘国辉的绘画创作

期刊

水墨人物画刘国辉绘画创作

养分循环代谢的城市可持续社区探析

在当前城市面临的种种困境里,养分线性代谢是一个日益严重却被长期忽视的问题,构建新的城市养分代谢系统、重新闭合养分循环是一个必要措施。本文以马克思"代谢断层"理论为切

期刊

养分循环城市代谢城市农业有农社区可持续社区代谢断层

基于特征迁移与模型迁移的分类器设计

与本文相关的学术论文