论文部分内容阅读
信息技术的快速发展使人们可以获得的信息越来越多,如何有效地从信息中获取知识变得越来越重要。作为数据挖掘、知识发现的重要手段之一,机器学习受到了广泛的研究。但是随着实际应用的不断加强,机器学习方法的性能遇到了瓶颈,其中一个很重要的原因是许多学习方法有着的严格使用前提,即训练数据与测试数据必须满足同分布的假设。由此带来了很多问题,如训练数据过期、训练模型过期、标记训练样本成本过高等问题,大大降低了数据分析的效率。现实中训练数据和测试数据分布存在偏差的情况常会出现,但这个问题在研究上却常被忽略。迁移学习方法放松了对训练数据和测试数据同分布假设的要求,能够利用不同领域的数据来帮助目标任务的学习,有效解决了训练数据和测试数据分布不一致的学习问题。目前,迁移学习受到了很多关注,同时也取得了丰富的成果。但是,通过总结和分析现有的方法发现,还存在如何在目标领域无标记数据情况下进行实例迁移、如何避免领域间分布参数估计的困难、如何控制领域差异较大的迁移过程中出现的负迁移以及如何平衡迁移算法的推广性和适应性等问题。针对这些问题,本文以如何利用相似领域中的数据信息为出发点,以提高目标领域数据分类任务的精度为目标,以实例迁移和特征迁移为基本手段,在对已有方法的总结和分析基础上,对如何构造迁移环境和对如何建立迁移环境下的分类模型进行了研究,主要工作有以下几点:1、提出了一种基于动态数据集的多步桥接精化迁移方法(MSBR)。通过多个由源数据分布向目标数据分布动态变化的混合数据集构建迁移环境,建立起源领域与目标领域的桥梁,将原始迁移任务分解成为若干个容易解决的迁移子任务,有效实现了判别信息的迁移,解决了目标领域无标记数据情况下对源数据进行重用的问题。2、针对目标领域数据不足难以进行分布参数估计的情况,提出了一种基于嵌入修正的迁移学习方法(RETR),利用目标数据中的少量标记数据结合大量的未标记数据对源数据进行选择。在目标领域标记数据较少的情况下,结合未标记数据构建基础嵌入空间,在其中对源数据进行投射和筛选,并设计交替优化利用胜出的源数据对基础嵌入空间进行修正,实现源数据判别信息对目标数据划分结构的影响。3、从特征空间出发,研究数据中隐含的内在结构之间的联系,提出了一种基于特征对齐的迁移方法(FATL)。通过求约束条件下的公共映射空间实现了源数据和目标数据的在特征空间的对齐,消除了领域间数据的分布差异,满足了传统分类器对训练数据和测试数据分布一致的要求,最终使问题回归到标准机器学习的问题当中。4、提出实例迁移和特征迁移统一优化的思想。考虑到实例迁移方法主要根据目标领域的特性进行优化,因而具有较好的适应性,而特征迁移主要考虑领域间的共性,因而具有较好的推广性。为了提高迁移算法的实用性,考虑了领域间数据的多样性和联系性,提出了一种基于样例约束和特征联系的迁移(TICFR)方法,通过将迁移问题中的实例层信息和特征层信息转换成为相应的约束条件,引入新的优化方式将两者有机地结合起来。实验对比发现,基于样例约束和特征联系的迁移方法在迁移过程中取得推广性和适应性的平衡。5、针对许多迁移问题当中可能会出现负迁移的情况,研究了对领域相似性的定量度量,将迁移风险引入学习过程中,结合TICFR,提出了控制负迁移的手段。通过将其应用到领域间数据差异较大的跨领域学习问题中发现,基于风险控制的迁移学习方法能够避免负迁移的发生,控制迁移过程中源数据对目标数据的不利影响。