论文部分内容阅读
随着数据规模和计算资源的快速增长,机器学习在理论和实践两方面都取得了长足进展。传统机器学习方法通常依赖于数据的生成机制不随环境改变这一基本假设。然而在机器学习的各种应用领域中,如大数据分析、自然语言处理、计算机视觉、生物信息学等,上述假设往往因为过于严格而难以成立。如何分析和挖掘非平稳环境中的大规模数据是现代机器学习最具有挑战性的前沿方向之一。迁移学习放宽了传统机器学习中训练数据和测试数据必须服从独立同分布的约束,因而能够在彼此不同但又相互关联的两个领域间挖掘领域不变的本质特征和结构,使得标注数据等有监督信息可以在领域间实现迁移和复用。迁移学习是解决目标任务标注数据稀缺的基础方法,其研究仍处于富有挑战的阶段。本文面向跨领域非结构化数据的分类和预测任务,系统地研究迁移学习的问题挑战及其解决方法。迁移学习中,过拟合、欠拟合、欠适配、负迁移等关键问题与挑战交错叠加。首先,在拟合观测数据所服从的未知概率分布时存在模型的过拟合或欠拟合问题;其次,在领域间适配不同的未知概率分布时存在模型的欠适配或负迁移问题:欠适配是指跨领域的概率分布失配问题未能充分修正,负迁移是指辅助领域任务对目标领域任务有负面效果。本文重点面向欠拟合、欠适配、负迁移等问题挑战,分析原因并设计针对性的学习方法,主要创新点包括:1.针对负迁移问题,提出一种图正则化联合矩阵分解模型,来构建跨领域间知识迁移的语义特征、提高特征结构的迁移能力、并避免特征结构的负面效果;该模型综合两类主流方法的优势,有效地克服了欠迁移与过迁移权衡的两难困境。2.针对欠适配问题,提出一种联合适配正则化学习框架,扩展最大均值差异准则用于度量联合概率分布距离;通过特征学习和监督学习使得联合概率分布在领域间适配,提出基于线性回归、支持向量机、主成份分析的三种迁移学习方法,并基于统计学习理论分析它们的泛化误差上界;提出基于核矩阵低秩近似误差的概率分布度量新准则来充分适配领域间概率分布,并从理论上分析近似误差上界。3.针对欠拟合、欠适配与负迁移问题,基于深度学习扩展最大均值差异准则为非线性分布差异准则,提出统一的鲁棒深度表征适配模型来协同解决上述问题;提出迁移交叉验证方法,解决目标领域无标注数据的无监督迁移学习的模型选择。