论文部分内容阅读
迁移学习方法是一种新的机器学习框架,它不同于传统的监督学习、无监督学习和半监督学习,该方法通过将某一源领域的标注数据样本和目标领域的未标注样本或少量的标注样本中学习到一个紧凑的、有效的表示,然后将学习到的特征表示方法应用到目标领域中。迁移学习没有像传统的机器学习那样要求训练数据与测试数据必需服从相同的分布,因此,迁移学习能够有效地在相似的领域或任务之间进行信息的共享和迁移。目前,迁移学习逐渐成为信息检索、文本挖掘和自然语言处理的热点话题,引起学术界和企业界的高度重视。本文以文本分类为研究背景,以迁移学习为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的迁移信息和方法,展开了对迁移学习模式下的特征和样本重构方法的研究,并提出了几种适用于迁移学习的文本分类方法。主要研究成果包括:1.提出一种基于特征映射的迁移学习方法。特征和样本是文本分类的两个重要方面,综合考虑这两种因素是非常重要的。本文提出的方法结合了基于特征和基于样本两种迁移学习方法。首先,该方法构建两个领域的公共特征子空间,通过基于互信息的方法得到公共特征中与测试集的主题因子最相关的特征,然后,在新的特征子空间下学习一个新的特征映射函数,通过构建的特征映射函数来对源领域和目标领域的数据重新赋权重,通过使用基于样本的方法完成了知识的迁移,从而降低了具有不同分布的数据之间的距离。实验中使用了为符合迁移学习要求所构造的三个文本分类的语料,实验结果显著的超过了一些传统的监督分类方法,从而验证了算法的有效性。2.提出一种自适应迁移学习方法。该方法以奇异值分解为基础,计算了目标领域的特有特征和公共特征之间的相似度,根据特征之间的相似度值对训练集和测试集的数据进行重构,通过建立的新的训练模型,给测试集数据一个预测的标签,并自适应的选择目标领域的合适的样本加入到原有的训练集中,从而解决了原有的训练集的数据偏置问题。本文将该方法应用到欧洲机器学习/数据挖掘竞赛ECML/PKDD 2006 Discovery Challenge语料库中,取得了较好的实验结果,也验证了该方法的有效性。3.提出一种基于图的迁移学习方法。基于图的方法具有谱图理论下的很好的性质,图方法种类很多,其中PageRank算法是一种被广泛使用的方法,这种排序策略已经被扩展到很多领域。本文以PageRank算法的思想为基本框架,通过使用源领域和目标领域的数据建构一个融合的图模型。源领域的数据可以用来取得目标领域数据的伪标签,目标领域的数据可以用来更新标签,同时在迭代计算中保留了上一次预测的标签信息,当算法收敛时,目标领域数据的预测标签为最终的结果。理论上,文中给出了算法收敛的证明,并且进行了模拟实验。实验中使用了Web文本分类、文本倾向性分析和垃圾邮件过滤的相关迁移学习语料,与监督和半监督方法相比,实验结果有显著的改善,也证明了该算法的有效性和普适性。