论文部分内容阅读
近几十年来,人工智能得到了迅速的发展,而机器学习技术在其中扮演着重要的角色。传统机器学习问题假设训练数据和测试数据是服从独立同分布的。然而,这种假设在许多真实世界应用中可能不成立,即训练数据(源领域数据)与测试数据(目标领域数据)分布不同,或者它们之间的特征空间是不同的。为了解决这一问题,迁移学习应运而生并引起了学术界的广泛关注。迁移学习旨在利用从一个或多个源领域中提取的知识来辅助目标领域的分类和预测任务。现有大多数迁移学习研究工作是基于单一源领域的知识迁移,即单源迁移学习。这些工作在很多真实世界领域已经取得了不错的成果。然而,对于目标领域来说,单一源领域无法为其提供丰富、多视角的知识,即单源迁移学习存在信息不充分问题。为了解决这一问题,我们需要从多个源领域中提取知识进行迁移,即多源迁移学习。此外,在大数据时代,多源迁移学习在面对持续在线到来的新数据时,无法及时对新数据做出预测,即存在响应不及时问题。基于此,我们将多源迁移学习与在线学习相结合,研究在线多源迁移学习范式。本文面向多个源领域数据的分类和预测任务,系统地研究了多源迁移学习的问题挑战及其解决方案。本文的主要贡献可以概括如下:1)我们提出了一种基于最优传输的多源迁移学习算法,称为基于条件Wasserstein距离的领域注意力算法。该算法首先结合标签信息提出了条件Wasserstein距离,用于度量每个源领域与目标领域之间的距离;然后基于条件Wasserstein距离提出了一个领域注意力模式,用于计算每个源领域的迁移权重,以评估领域之间的相关性,从而可以控制从每个源领域到目标领域的知识迁移量,有效地提升多源迁移学习的性能。2)我们提出了一种基于特征选择和最优传输的多源迁移学习算法,称为基于特征选择和Wasserstein距离的迭代改善学习算法。该算法在每次迭代中首先利用特征选择策略来学习新的特征表示,从而最小化每个源领域和目标领域之间的差异;然后在每个源领域和目标领域新的特征表示上计算Wasserstein距离,并基于该距离来评估领域之间的相关性。因此,我们同时考虑了不同领域之间的差异性和相关性。3)我们将多视图共现数据作为中间领域数据,与源领域数据一起构成了面向多个源领域的知识迁移问题。我们提出了一种基于共现数据的在线多源异构迁移学习算法,称为在线异构知识传递算法,以解决多源迁移学习的响应不及时问题。该算法利用共现数据连接异构的源领域和目标领域,使源领域的标签信息可以传递到目标领域,并使得源领域数据和先前到达的目标领域数据的知识与下一轮到达的目标领域数据的知识保持接近。4)我们进一步考虑当共现数据不存在或无法收集的情形,分别提出基于集成策略的在线多源同构和异构迁移学习算法,解决多源迁移学习的响应不及时问题。算法主要结合了集成策略和Hedge策略,自适应地动态更新每个源领域和目标领域的权重。我们还对所提出的算法进行了理论分析。