论文部分内容阅读
传统的机器学习是基于统计学的机器学习,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型,然后利用这个学习到的模型来对测试数据进行分类与预测。其中有一个基本的假设条件:训练数据与测试数据来自相同的特征空间而且服从相同的概率分布。但是在实际问题中,这种假设往往不成立,这样就导致学习到的模型无法很好的应用到测试数据上去,于是传统的机器学习技术就对这些问题的解决失去了效力。这往往需要我们去重新标注大量的训练数据以满足我们训练的需要,但标注新数据是非常昂贵的,需要大量的人力与物力。从另外一个角度上看,如果我们有了大量的、在不同分布下的已标记的训练数据,完全丢弃这些数据也是非常浪费的。如何合理的利用这些数据就是迁移学习主要解决的问题。目前根据源数据集和目标数据集中数据标记的情况不同,迁移学习可以划分为三类:归纳式迁移学习,直推式迁移学习和无监督迁移学习,其中前两种迁移学习是当今研究的热点。根据迁移对象的不同,现今解决迁移学习问题的方法可分为四种:实例迁移法,主要是通过挑选和提取对目标数据集训练有帮助的样例进行权重重组,将其作为辅助训练数据来帮助目标数据空间的学习;特征代表迁移法,主要是寻找一个“好”的特征代表来最小化各个特征空间或者分类器、回归模型之间的差异;参数迁移法,寻找源数据空间模型和目标数据空间模型之间的共同的参数或者前提来进行进一步处理达到知识迁移的目的;关联知识迁移法,通过建立源空间数据的关系模型与目标空间数据的关系模型的映射模型来实现知识的迁移,并假定两个数据空间是相关的而且各自服从独立同分布假设。本文对归纳式迁移学习进行了重点研究,在总结几种主流的迁移学习解决方法的基础上,提出了三种算法:基于数据集动态重组的集成迁移学习。算法首先将大量旧的已标记数据进行随机等量分割,把得到的旧数据的各个分块分别与少量的新已标记数据组合得到多个重构的训练数据集,然后分别训练分类器得到一个集成分类器,利用它对样例进行权值的更新,最后得到最终的集成分类器。基于神经网络误差分析和数据重组的集成迁移学习。首先利用已标记的目标数据训练一个神经网络分类器模型,然后把源数据集中的样例输入该模型中,利用输出的误差来为该样例的权重进行初始化,再利用分割重组的方式重组数据集并训练分类器,最后进行分类器的集成。基于向量平移和模糊聚类的迁移学习。为了让源数据与目标数据在特征空间中有尽可能大的交集,利用向量平移的方式将两者尽量重叠起来,然后把目标数据集的各类中心点作为聚类中心对平移后的数据进行模糊聚类,得到每个样例隶属于各个类别的模糊隶属度来为其加权,最后训练分类器。