迁移学习在文本分类中的应用研究

被引量 : 54次 | 上传用户:glrioa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迁移学习方法是一种新的机器学习框架,它不同于传统的监督学习、无监督学习和半监督学习,该方法通过将某一源领域的标注数据样本和目标领域的未标注样本或少量的标注样本中学习到一个紧凑的、有效的表示,然后将学习到的特征表示方法应用到目标领域中。迁移学习没有像传统的机器学习那样要求训练数据与测试数据必需服从相同的分布,因此,迁移学习能够有效地在相似的领域或任务之间进行信息的共享和迁移。目前,迁移学习逐渐成为信息检索、文本挖掘和自然语言处理的热点话题,引起学术界和企业界的高度重视。本文以文本分类为研究背景,以迁移学习为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的迁移信息和方法,展开了对迁移学习模式下的特征和样本重构方法的研究,并提出了几种适用于迁移学习的文本分类方法。主要研究成果包括:1.提出一种基于特征映射的迁移学习方法。特征和样本是文本分类的两个重要方面,综合考虑这两种因素是非常重要的。本文提出的方法结合了基于特征和基于样本两种迁移学习方法。首先,该方法构建两个领域的公共特征子空间,通过基于互信息的方法得到公共特征中与测试集的主题因子最相关的特征,然后,在新的特征子空间下学习一个新的特征映射函数,通过构建的特征映射函数来对源领域和目标领域的数据重新赋权重,通过使用基于样本的方法完成了知识的迁移,从而降低了具有不同分布的数据之间的距离。实验中使用了为符合迁移学习要求所构造的三个文本分类的语料,实验结果显著的超过了一些传统的监督分类方法,从而验证了算法的有效性。2.提出一种自适应迁移学习方法。该方法以奇异值分解为基础,计算了目标领域的特有特征和公共特征之间的相似度,根据特征之间的相似度值对训练集和测试集的数据进行重构,通过建立的新的训练模型,给测试集数据一个预测的标签,并自适应的选择目标领域的合适的样本加入到原有的训练集中,从而解决了原有的训练集的数据偏置问题。本文将该方法应用到欧洲机器学习/数据挖掘竞赛ECML/PKDD 2006 Discovery Challenge语料库中,取得了较好的实验结果,也验证了该方法的有效性。3.提出一种基于图的迁移学习方法。基于图的方法具有谱图理论下的很好的性质,图方法种类很多,其中PageRank算法是一种被广泛使用的方法,这种排序策略已经被扩展到很多领域。本文以PageRank算法的思想为基本框架,通过使用源领域和目标领域的数据建构一个融合的图模型。源领域的数据可以用来取得目标领域数据的伪标签,目标领域的数据可以用来更新标签,同时在迭代计算中保留了上一次预测的标签信息,当算法收敛时,目标领域数据的预测标签为最终的结果。理论上,文中给出了算法收敛的证明,并且进行了模拟实验。实验中使用了Web文本分类、文本倾向性分析和垃圾邮件过滤的相关迁移学习语料,与监督和半监督方法相比,实验结果有显著的改善,也证明了该算法的有效性和普适性。
其他文献
知识通过网络可实现快速扩散,高技术企业联盟是知识扩散的重要主体。借鉴疾病传播的SIRS原理构建的高技术企业联盟知识扩散AIDA模型揭示了联盟网络的知识扩散机理与特性,以TD
目前高附加值快运货物的运输需求发展较快,而铁路行包大列产品在运输能力、服务水平上还存在差距,尚不能完全满足社会需求。在综述国外行包运输产品的基础上,分析我国铁路行
产业投资基金试点运作对于推进滨海新区开发开放具有重要意义。在借鉴国外私募股权基金运作模式和国内类似性质投资基金发展经验的基础上,根据我国的基本国情和滨海新区开发
通过分析国外铁路货运客服中心的发展,以及业务流程情况,说明我国铁路建立货运客服中心的现实意义:有利于提高货运营销水平,有利于铁路内部生产优化,有利于优化货运产品结构,
随着施工行业市场的日渐饱和,处于行业产业链底层的施工企业经营管理面临着严重的同质化竞争以及国家宏观产业政策风险、战略风险、财务风险、合同管理风险、工期风险、质量
目的:通过对64例面部肥胖(下颌角肥大除外)患者随机采用“穴位杵针配合面部精油按摩瘦脸”或“单纯采用面部精油按摩瘦瘦脸”,观察研究这两种方法之间的疗效差异,同时探求一种
研究目的:研究内镜下慢性萎缩性胃炎(Chronic Atrophic Gastritis ,CAG)黏膜改变的中医证型分布情况,探寻与幽门螺杆菌、病理组织学改变、舌象之间的相关性,总结内镜下慢性萎
2002年电力体制改革以来,我国电力行业开始全面民营化的进程,主要推行了国有企业改制的形式民营化与民营及外资准入发电市场的实质民营化。九年后,电力改革的效果差强人意。
“竞价排名”模式是新兴发展的一种网络营销方式,我国最早引入该模式的是全球最大的中文搜索引擎商百度公司,之后谷歌的AdWords关键词广告也应运而生。该项服务在投入市场之
儒家文化源远流长,以深奥的哲理和严密的逻辑,居于东方文化传统的主流地位。作为中国邻居的韩国受儒家文化的熏陶相当深远,韩国的企业文化更是首当其冲。分析儒家文化对韩国