论文部分内容阅读
在当今人工智能领域的研究热潮下,迁移学习作为机器学习的一大分支,成为了研究热点并且取得了显著的研究成果。因为我们正处于海量数据快速增长的时代,包括语音、视频、图像、文本等各种数据,所以机器学习为了解决不同的问题以适应不同的应用场景,就需要利用这些海量数据来训练得到最优的模型。但是在大数据量的背后确实存在一个令人关注且急需解决的问题,那就是缺乏对于大数据的信息标注。人工标注数据即需要消耗很长时间,也要花费大量成本。迁移学习训练的优化模型不需要大量的数据标注,通过已有标注数据的源域知识,可以帮助没有标注数据的目标域进行学习,从而解决缺乏标注数据的问题。数据分类和标注类似,具体到图像分类的应用,可以借助已有标注的源域信息,完成无标注的目标域的图像分类。因此,在数据标注和分类领域,迁移学习方法得到了广泛的研究和发展。迁移学习利用源域及目标域的数据和任务之间的相似性,将源域的知识迁移至目标域,训练出对于目标域的优化模型。因此,迁移学习算法的关键是度量源域和目标域的距离,进一步缩小两个域的数据分布差异性。本文对迁移学习方法进行研究,并将其应用在图像分类中,利用图像最重要的特征信息,在缩小两个域的特征分布差异性的前提下,得到更好的特征表示。本文提出了两种基于特征适配的迁移学习方法。1、张量是向量和矩阵的泛化,尤其适合表示向量或矩阵所无法自然表示的多线性关系。然而,大多数现有迁移学习方法是针对向量空间的,因而在很多应用问题中,不易于表示和保存重要的结构信息。在此基础上,本文提出了一种新的基于张量表示和适配正则化的特征表示的迁移学习方法,即张量子空间中联合域对齐和适配正则化的特征表示的迁移学习方法。当源域和目标域的数据分布差异较大时,只是将源域特征对齐潜在的共享子空间,会使得数据的扭曲过大。为了缓解这一问题,本文提出联合域对齐的方法,即将源域和目标域的数据在张量表示下,同时对齐共享的张量子空间。并且为了缩小源域和目标域之间的数据分布差异,保留样本间的流行一致性,本文在基于张量表示的空间求解中引入适配正则化,本文的适配正则化由动态分布对齐和图适配构成。最后融合联合域对齐和适配正则化,通过联合的优化求解共享张量子空间,获得基于张量子空间的源域和目标域新的特征表示。本文在几个公共的数据集上进行了大量的图像分类的实验,得到的实验结果表明了本文所提的方法相比于其它主流的迁移学习方法更鲁棒,验证了所提方法的有效性。2、现有的大多数迁移学习算法在解决图像分类的问题中,经常会存在图像类别的不平衡问题,即不同类别样本的数量差别很大,导致数据分布倾斜于样本多的类别,忽略了样本少的类别的重要性,这会影响整个源域至目标域的迁移结果。迁移过程中,样本的特征之间不仅存在相关性,特征和标签之间也存在着依赖关系,然而很多迁移学习方法也没有考虑特征和标签之间的依赖性。本文提出一种新的迁移学习方法即基于类平衡和表示学习的迁移学习方法。提出类平衡的随机过采样算法,控制源域和目标域的类平衡,减小源域和目标域的分布差异。同时提出基于图结构学习和希尔伯特-施密特独立性准则的表示学习部分,将其引入类平衡的样本空间中求解。图结构学习减小类内距离,希尔伯特-施密特独立性准则保存在类平衡下的特征和标签的内在依赖性。最后融合类平衡的随机过采样算法和表示学习,得到优化的域适配特征表示。通过在几个图像数据集上的实验,对比与其它的迁移学习方法,有效的提高了在图像分类迁移任务上的准确率。