论文部分内容阅读
随着计算机信息技术的飞速发展,从海量数据中挖掘有用的信息并加以利用已经成为当前的研究热点。在数据挖掘中,传统的机器学习假设训练数据与测试数据具有相同的分布,而实际应用中往往并不能满足这一假设,即使勉强满足也大大降低了数据分析的效率。迁移学习方法能够有效地在相似的领域或任务之间进行信息的共享和迁移,使传统的从零开始的学习变成可积累的学习,具有成本低,效率高等优点,近几年成为数据挖掘和机器学习的关注焦点。迁移学习最大的特点就是利用相关领域的知识来帮助完成目标领域中的学习任务。但是,不同的知识表达方式直接影响迁移学习的效果。本文从知识的表达方式入手,对知识表达与迁移方法的结合方式展开研究,主要工作如下:首先,针对源领域数据和目标领域数据分布类似的情况,提出一种基于多源动态TrAdaBoost的实例迁移学习方法。该方法考虑多个源领域知识,使得目标任务的学习可以充分利用所有源领域信息;每次训练候选分类器时,所有源领域样本都参与学习,可以获得有利于目标任务学习的有用信息,从而避免负迁移的产生。理论分析验证了所提算法较单源迁移的优势,以及加入动态因子改善了源权重收敛导致的权重熵由源样本转移到目标样本的问题。实验结果表明,此算法在提高识别率和分类精度等方面的优势。其次,针对源领域数据和目标领域数据分布差别较大的情况,提出一种基于协方差矩阵的特征迁移学习方法。该方法采用相似学习估计个体参数的协方差对,从数据间特征联系出发,通过构造半正定规划来组合这些估计值并学习当前任务的先验值,构建多变量高斯先验的协方差矩阵,进而对未标记的数据进行有效预测。实验结果表明,所提方法利用少量的源任务即可得到较好的迁移学习结果。再次,针对共享知识是一些基函数的参数模型或先验分布的情况,提出一种基于层次贝叶斯的参数迁移学习方法。该方法定义任务相关性的层次概念,对标准Dirichlet过程模型进行扩展,建立多任务环境下的贝叶斯强化学习模型;有效学习类别数量、类型的推断过程以及用于探索新任务时的类别结构,从而更快地学习更多的知识。实验结果表明,提出的方法可以加快新领域中最优策略的收敛速度。最后,针对共享知识是规则、结构和逻辑等关联规则的情况,提出一种基于马尔可夫逻辑网的关联规则迁移学习方法。该方法首先利用伪对数似然函数,将源领域中马尔可夫逻辑网表示的知识迁移到目标领域中,建立两个领域之间的关联;通过对源领域进行自诊断、结构更新和目标领域搜索新子句,来优化映射得到的结构,进而适应目标领域的学习。实验结果表明,算法成功地映射了迁移知识,提高了学习模型的精确度。全文针对目前迁移学习研究中存在的部分问题,以如何利用源领域和目标领域间共享的不同知识表达方式为出发点,以提高目标领域的学习效率为目的,以不同的迁移方法为基本手段,对如何构造迁移环境和如何建立迁移环境下的有效迁移模型进行深入研究,提出了解决办法。实验结果验证了上述方法的可行性和有效性。论文研究成果丰富了迁移学习理论,为其在数据挖掘中的应用提供了有益的指导。