论文部分内容阅读
训练与测试数据在传统的机器学习中通常满足同分布,但实际应用中,满足同分布条件的训练样本往往相当缺乏。怎样有效地利用与测试数据非同分布的训练数据是需要解决的问题,恰好利用迁移学习解决。迁移学习的目的是借助来自其他领域的,不满足数据同分布的训练样本,帮助目标领域建立分类模型。另外,迁移学习方法的分类效果在很大程度上依赖源领域,例如,源领域的个数以及源领域与目标领域之间的可迁移性等。本文研究了用来表示多元关系的超图,在多个源领域对目标领域样本多标签化的基础上,构建了样本标签关系超图,捕获了共享相同标签的多个样本之间的关系,给出了分类模型。利用超图的拉普拉斯扩展进一步细化了该预测模型,通过最小二乘法的技术求解。实验表明,该算法在分类性能和时间效率上具有明显的优势。针对迁移学习中目标领域标记样本较少的问题,本文给出了半监督学习中的助学习与多源迁移学习融合的算法。该算法利用了助学习方法中对样本进行两次选择的特点,对每个源领域中的样本进行了两次选择。第一次根据分类一致性以及迁移性能,第二次根据样本在分类器下的类别概率,选择类别概率较高的样本加入到目标领域带标记的数据集中,即,从每个源领域中选择符合条件的样本加入到有标记的目标领域。实验表明,Help-MITL算法在目标领域训练比例较小时,仍有较高的分类性能。研究了用来解决标记样本稀缺的主动学习及其学习方法,设计了基于主动学习的多源迁移算法。该算法分成两部分来考虑,第一部分从每个源领域中迁移样本,依据源领域训练的模型和带标记的目标领域数据训练的模型分别对样本的预测结果,从每个源领域中选择两个模型均预测正确的样本构成新的源领域;第二部分从目标领域无标记的数据集中选择样本并进行专家标记,根据新的源领域与目标领域有标记的数据集共同训练的模型和目标领域标记数据集单独训练模型对样本的预测结果,选择两个模型预测结果一致且预测概率较高的样本。实验证明,在专家标记样本数一定的情况下,AtMTL算法更加高效。