论文部分内容阅读
传统的机器学习是基于统计学的机器学习,其中一个基本的假设条件就是训练和测试数据来自相同的特征空间并且具有相同的概率分布。然而,在很多实际应用中,这种假设往往并不成立,导致传统的机器学习技术对这种问题的解决失去了效力。近年来,迁移学习(transfer learning)作为一种新的学习典范被用于处理这种挑战。迁移学习最大的特点就是利用从旧的源领域学习到的知识帮助一个新的目标领域完成学习任务,使得传统的从零开始的学习变为可以积累的学习。目前学者们已经提出很多方法用于解决迁移学习文本分类问题,比如利用支持向量机、人工神经网络等等。尽管研究表明这些方法取得了比较好的分类性能,但是单一模型用于解决迁移学习问题存在着一定的局限性,因此有学者提出使用集成学习解决该问题。然而,集成学习需要多个基模型,这就增加了时间和空间复杂性,同时泛化能力差的基模型也会影响最终的分类效果。在原始集成系统中选择一个子集用于构建集成系统可以很好的解决这个问题,该方法被称为集成剪枝,也可以称为选择性集成(selective ensemble)。选择性集成技术可以有效解决集成学习中存在的高计算复杂度的缺点。本文提出了一种新颖的基于知识杠杆的RankRE-TL算法用于解决迁移学习文本分类问题。该算法将基于知识杠杆的迁移学习机制同基于减小错误的排序准则RankRE(Rank-based Reduce Error evaluation measure)结合完成迁移任务。RankRE准则的设计原理是选择一个候选分类器,使得其并入到当前子集成系统后形成新的子集成系统的泛化误差最小。RankRE-TL算法针对源领域数据和目标领域已标注数据分布存在一定相似性,但两域之间已标注数据数量严重失衡的问题,提出了一种动态数据重组的方法来解决该问题。通过将大量源数据利用Bootstrap技术按不同比例选取多个训练子集分别与少量的目标域训练数据结合得到多个重构的训练集,然后分别训练分类器得到原始集成系统。另外,与传统的选择性集成技术构建验证集的方式不同,RankRE-TL设计了一种新的方法来构造剪枝集。然而基于RankRE评估准则的选择性集成算法是一种贪婪的算法,容易限于局部最优解。为解决该问题,同时为了更有效地迁移源域知识,本文提出了一种融合TrSVM与选择性集成方法GASEN的迁移算法TrGASVM。其中,TrSVM首先在基于动态数据集重组的基础上训练多个源域模型,得到多个支持向量集(SV)。对每个SV集,按照其与目标领域训练数据的相似度分配权重,并和目标域训练数据组合得到新的训练集,最后在各训练集上分别训练模型得到迁移SVM集成系统。GASEN算法是基于组合优化的启发式算法,利用遗传算法实现对集成中模型的选择,不仅具有遗传算法的优点,也可以避免贪婪集成剪枝所具有的局部最优问题。TrGASVM融合TrSVM和GASEN用于迁移学习,这样不仅具有TrSVM算法的优点,也结合了GASEN的优势,因此能够更有效的对源域知识进行迁移。