论文部分内容阅读
随着社会的发展,人们的日常生产和生活产生了大量的数据。最近,由于移动互联网的产生和发展,数据产生的速度越来越快,数据量也随着激增。传统机器学习假设训练数据和测试数据服从相同的统计概率分布,然而现实中的数据往往来自不同概率分布的数据集,这将导致学习性能下降。如何从不同概率分布的数据集中挖掘有价值的信息已经成为机器学习的研究热点问题。迁移学习打破了训练数据与测试数据同分布的假设,因此测试数据可以借助不同概率分布的训练数据进行知识迁移,从而提高测试数据的学习性能。目前迁移学习中的联合分布对齐方法主要通过同时减小边缘分布差异和条件分布差异来实现域适应。然而这类方法分配给边缘分布差异和条件分布差异相同的权重,这与实际场景不符。另外,分布对齐方法假设独立分布差异存在或者联合分布差异存在,不能根据具体任务自适应特征分布差异对齐导致学习性能降低。因此,本文针对这两个问题,提出基于类内距离约束的特征分布差异自适应方法以及两阶段特征分布差异自适应框架。本文的主要工作和创新点在于:针对目前联合分布对齐方法通过同时减小边缘分布差异和条件分布差异来实现域适应,然而忽略边缘分布差异与条件分布差异根据不同的任务具有不同重要性的问题,提出了基于类内距离约束的特征分布差异自适应方法。该方法首先通过平衡分布因子给边缘分布差异与条件分布差异分配不同的权重,然后在每次迭代中动态更新平衡分布因子。此外,在域适应过程中同时加入源领域的类内距离约束和目标领域的类内距离约束,加强类的可分性。在多个数据集上的实验结果表明所提出的方法能有效地提高迁移学习的分类准确率。针对目前分布对齐方法假设域间边缘分布差异或者条件分布差异独立存在以及假设域间边缘分布差异和条件分布差异同时存在导致学习性能下降的问题,提出了两阶段特征分布差异自适应框架。该方法在第一阶段,快速评估边缘分布差异的大小;然后,在第二阶段,如果边缘分布差异较小,则只适配条件分布差异;如果边缘分布差异较大,则同时适配边缘分布差异和条件分布差异。为验证该框架的有效性,本文在第二阶段结合基于类内距离约束的特征分布差异自适应方法适配联合分布差异。同时,本文在多个数据集上的实验表明本文所提出的T-BDA框架能实现独立分布差异对齐和联合分布差异对齐自适应,提高跨领域分类准确率。