迁移学习方法研究及其在跨领域数据分类中的应用

被引量 : 0次 | 上传用户:njxgfd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展使人们可以获得的信息越来越多,如何有效地从信息中获取知识变得越来越重要。作为数据挖掘、知识发现的重要手段之一,机器学习受到了广泛的研究。但是随着实际应用的不断加强,机器学习方法的性能遇到了瓶颈,其中一个很重要的原因是许多学习方法有着的严格使用前提,即训练数据与测试数据必须满足同分布的假设。由此带来了很多问题,如训练数据过期、训练模型过期、标记训练样本成本过高等问题,大大降低了数据分析的效率。现实中训练数据和测试数据分布存在偏差的情况常会出现,但这个问题在研究上却常被忽略。迁移学习方法放松了对训练数据和测试数据同分布假设的要求,能够利用不同领域的数据来帮助目标任务的学习,有效解决了训练数据和测试数据分布不一致的学习问题。目前,迁移学习受到了很多关注,同时也取得了丰富的成果。但是,通过总结和分析现有的方法发现,还存在如何在目标领域无标记数据情况下进行实例迁移、如何避免领域间分布参数估计的困难、如何控制领域差异较大的迁移过程中出现的负迁移以及如何平衡迁移算法的推广性和适应性等问题。针对这些问题,本文以如何利用相似领域中的数据信息为出发点,以提高目标领域数据分类任务的精度为目标,以实例迁移和特征迁移为基本手段,在对已有方法的总结和分析基础上,对如何构造迁移环境和对如何建立迁移环境下的分类模型进行了研究,主要工作有以下几点:1、提出了一种基于动态数据集的多步桥接精化迁移方法(MSBR)。通过多个由源数据分布向目标数据分布动态变化的混合数据集构建迁移环境,建立起源领域与目标领域的桥梁,将原始迁移任务分解成为若干个容易解决的迁移子任务,有效实现了判别信息的迁移,解决了目标领域无标记数据情况下对源数据进行重用的问题。2、针对目标领域数据不足难以进行分布参数估计的情况,提出了一种基于嵌入修正的迁移学习方法(RETR),利用目标数据中的少量标记数据结合大量的未标记数据对源数据进行选择。在目标领域标记数据较少的情况下,结合未标记数据构建基础嵌入空间,在其中对源数据进行投射和筛选,并设计交替优化利用胜出的源数据对基础嵌入空间进行修正,实现源数据判别信息对目标数据划分结构的影响。3、从特征空间出发,研究数据中隐含的内在结构之间的联系,提出了一种基于特征对齐的迁移方法(FATL)。通过求约束条件下的公共映射空间实现了源数据和目标数据的在特征空间的对齐,消除了领域间数据的分布差异,满足了传统分类器对训练数据和测试数据分布一致的要求,最终使问题回归到标准机器学习的问题当中。4、提出实例迁移和特征迁移统一优化的思想。考虑到实例迁移方法主要根据目标领域的特性进行优化,因而具有较好的适应性,而特征迁移主要考虑领域间的共性,因而具有较好的推广性。为了提高迁移算法的实用性,考虑了领域间数据的多样性和联系性,提出了一种基于样例约束和特征联系的迁移(TICFR)方法,通过将迁移问题中的实例层信息和特征层信息转换成为相应的约束条件,引入新的优化方式将两者有机地结合起来。实验对比发现,基于样例约束和特征联系的迁移方法在迁移过程中取得推广性和适应性的平衡。5、针对许多迁移问题当中可能会出现负迁移的情况,研究了对领域相似性的定量度量,将迁移风险引入学习过程中,结合TICFR,提出了控制负迁移的手段。通过将其应用到领域间数据差异较大的跨领域学习问题中发现,基于风险控制的迁移学习方法能够避免负迁移的发生,控制迁移过程中源数据对目标数据的不利影响。
其他文献
本文主要介绍防冻液的配制、组分和添加剂(助剂)。并阐述产品可能出现的质量问题及解决办法。
提高软件测试的缺陷检测能力,有效降低测试成本是软件测试优化研究中的关键问题。基于软件测试的Markov决策模型,以降低软件测试成本,提高测试的缺陷检测能力为目标,运用蚁群
太赫兹光谱技术作为获取物质在太赫兹频段信息的主要方法,已经被广泛应用于物质成分的测定,而其在成分分布成像方面则有着更广阔的应用前景,例如片剂药品的有效成分检测、行
测试数据生成是组合测试的一个关键问题.文中提出以数理统计为基础的交叉熵方法和以仿生学为基础的粒子群优化算法来生成两两组合测试数据,交叉熵方法采用最优选择概率产生测
慢性萎缩性胃炎是临床消化系统疾病的常见病与多发病。吾师姜树民教授师承国医大师李玉奇、著名的中医大师周学文教授,专攻中医脾胃病、中医急症,从事脾胃病的教学、科研及临
<正>在我国经济进入新常态的背景下,党员干部也要尽快适应在严格约束下为官用权、回归本来的作风"新常态"。而对于政治生态存在各种问题、党风廉政建设和反腐败斗争形势严峻
近年来,为促进全省经济、社会的全面、协调和可持续发展,广东省实施“双转移”战略,西部、北部等欠发达山区承接了不少来自中南部的工业项目,在各地大力建设工业园区中引进了
世界各地的电力工业在最近几十年正进行或面临着一场规模巨大的重组改革。电力工业引入市场化竞争以提高社会效益及增强运行效率。然而在当前阶段,电力市场具有寡头垄断市场
透明导电薄膜是一种重要的光电材料,它具有高导电性,在可见光范围内有很高的透光性,且在红外范围有很高的反射性,在电子产业中有着很广阔的应用前景。SrTiO3是一种典型的宽禁