论文部分内容阅读
传统机器学习算法大多假设训练数据(源领域)和测试数据(目标领域)是独立同分布的。然而,现实数据多在开放动态环境中收集,使得源领域数据分布有别于目标领域数据分布。领域适应(Domain Adaptation)方法利用标记丰富的源领域来辅助具有相似分布的未标记的目标领域的学习,以有效缓解数据分布偏移问题。已有的领域适应方法大多聚焦于学习领域间不变特征表示,以缩小领域间数据分布差异。然而,这些方法在对齐领域间数据分布时,弱化了不变特征表示的判别能力,导致模型的泛化能力弱。此外,已有的领域适应方法依赖于未标记的目标领域数据在模型训练阶段是可使用的假设,而实际场景中,目标领域数据大多是动态产生的,因而只能获取到非常有限的目标领域数据,甚至目标领域数据在模型部署之前是未知的。这些问题给已有的领域适应方法带来了极大的挑战。本文在单个源领域数据可用场景下,针对模型训练阶段,未标记的目标领域数据可使用时,所学模型泛化能力弱,以及模型训练阶段,目标领域数据不可使用等问题开展了领域适应研究。本文主要研究内容如下:(1)针对模型训练阶段,未标记的目标领域数据可使用场景下,所学模型泛化能力弱问题,提出一种基于双重表示自动编码器的领域适应算法DRAE(Dual-Representation based Auto Encoder),该算法通过学习双重表示来获取具有强判别能力的不变特征表示,以提高模型的泛化能力。该算法分为三个学习阶段:首先,将源领域和目标领域所有数据放在一起训练,通过增大领域内的类间距离,以及缩小领域间的条件分布和边缘分布差异来学习全局特征表示。其次,利用源领域标签信息和目标领域伪标签信息,将两个领域中的原始数据根据所属的类别划分到多个局部子集,并基于局部子集学习局部特征表示,以此来保留每个类的类判别信息。最后,对以上两种特征表示进行加权获取双重表示,并基于此双重表示,在源领域上构建预测模型对目标领域数据进行预测。在Reuters-21578、20Newsgroups、Amazon Review、Office-Caltech10数据集上,与基线算法相比,DRAE取得了更高的平均分类准确率,分别为93.4%、97.4%、91.1%、54.2%;在Office-Home数据集上,DRAE取得了可竞争力的性能,平均分类准确率为65.0%。(2)针对模型训练阶段,目标领域数据不可使用问题,基于特征和类标签之间的因果关系在相似领域保持不变以及所有的特征都是二进制的假设,提出一种基于实例加权和双分类器的鲁棒领域适应算法SRDC(Sample Reweighting and Dual Classifiers)。该算法不需要使用未标记的目标领域数据,仅利用单个源领域中数据构建预测模型,对未标记的目标领域数据进行预测。该算法包含两个学习阶段:特征选择和实例加权。首先,通过特征选择筛除部分与类标签无关的特征,以完全去除这部分无关特征和类标签之间的虚假相关,同时消除这些无关特征对实例加权的影响。其次,根据特征的取值将实例划分到处理组和对照组,通过实例加权平衡每个特征所对应的处理组和对照组的数据分布,来评估每个特征和类标签之间的因果效应,以去除残留的无关特征和类标签之间的虚假相关。SRDC在训练模型时构建两个分类器,通过最小化这两个分类器的参数差异来学习一个较优的决策边界,以进一步提高模型的泛化能力。在合成数据集上,相比基线算法,SRDC取得较小的均方根误差值;在两个真实数据集Amazon Review、Office-Caltech10上,SRDC取得了最高的平均分类准确率,分别为75.70%、46.87%。(3)针对模型训练阶段,目标领域数据不可使用问题,基于特征和类标签之间的因果关系在相似领域保持不变的假设,提出一种基于因果自动编码器的鲁棒领域适应算法CAE(Causal Auto Encoder)。该算法将自动编码器和因果结构学习统一到一个模型中,从单个源领域中学习因果特征表示,并基于因果特征表示构建一个能泛化到任意与源领域具有相似分布的目标领域的鲁棒的预测模型。自动编码器用于学习原始数据的低维特征表示,以此来捕捉变量之间的非线性关系并减少数据中噪音的影响。因果结构学习模型用于将此低维特征表示拆分为因果特征(马尔科夫毯)表示和任务无关表示。自动编码器和因果结构学习模型相互约束、相互提高。CAE在三个真实数据集Office-Caltech10、Amazon Review和Reuters-21578上的平均分类准确率分别为46.86%、77.29%、67.03%,取得了比基线算法更好的性能。