基于迁移学习的半监督文本分类方法

被引量 : 0次 | 上传用户:gaolch012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络已成为主流信息的载体。在海量信息中,文本是信息的主要表达形式,文本数据中包含大量丰富的知识,因此对文本数据进行有效且高效的处理是十分必要的。其中,文本分类是一种重要的数据分析方法,它能够提取、刻画出重要数据类的模型,使得计算机可以从过去的数据中获取知识,解决问题。传统的文本分类方法为了使得学习效果最佳,对训练数据有很高的要求。比如:传统方法要求训练数据有充足的已标注数据、噪音越少越好,训练数据和测试数据的概率分布相同等等。在通常情况下,这些条件并不能被满足。因此,对一个新目标域进行学习时,若已标注的数据不充足,会直接影响学习效果。在这类问题的驱动下,我们注意到那些过期的、已学习的数据还有很大的利用价值,但由于过期数据的概率分布与目标域的概率分布不同,不能被直接使用。因此,需要利用迁移学习方式解决上述问题。迁移学习是一个崭新的学习框架,该框架的思想是举一反三、触类旁通,对训练数据和测试数据的要求少,并且迁移可以在相同或不同的领域之间进行。比如,我们可以通过迁移学习将过期数据中有价值的部分筛选出来,并将其应用到目标任务的学习中。近几年,迁移学习的思想逐渐走入人们的视野之中,同时也受到文本挖掘、自然语言处理、信息检索等相关领域研究者越来越多的关注。本文针对目标领域已标注数据过少的情况,对二分类问题进行研究。PU学习是解决二分类问题的方法之一,是半监督文本分类算法的一种。传统的两阶段PU学习过程包括抽取可信反例和利用正例、可信反例训练分类器两部分。本文以此为基础,在两个阶段中分别引入迁移学习的思想,提出改进PU算法--TransferPU。TransferPU从两个角度对知识进行迁移。首先从特征表示的角度进行考虑,提出强特征和弱特征概念,利用相近领域的可用特征对目标领域的特征进行补充,使正例特征集更加完备,从而提升描述正例的能力;然后从实例的角度进行考虑,改进后的算法Transfer1DNF利用强正例特征集和弱正例特征集过滤无标注实例集合,在选取可信反例的同时获得一部分候选正例与反例,对目标领域中的少量可用实例进行扩充;最后,利用改进后的分类算法TransferISVM对正例及反例进行学习训练,得到二分类器。最后,我们在20NewsGroup数据集上对TransferPU算法进行验证,并与已有的两种非迁移学习算法进行全面比较。实验结果表明引入迁移思想的PU分类方法可以很好地抽取正例特征,获得充足的可信反例,提升当目标领域正例数据量较少时分类器的性能。
其他文献
通过江苏省“宗教界代表人士培养和团体建设基本情况及问题”专题调研发现,全省宗教团体和宗教界代表人士队伍建设的总体状况良好,并在工作实践中取得一些宝贵经验。为了进一
工业化、信息化、城镇化、农业现代化同步发展是中国转变经济发展方式的重要途径。面临低端陷阱威胁的工业化、深受规模约束的农业现代化、低质量的城镇化和低水平的信息化,
本文主要介绍了在Excel上设计一种非手工模式会计核算系统的方法,其目的在于:一是为小企业提供一个简单易用的会计核算系统,二是给出一个只需要企业提供“底层”数据即可方便
研究目的:研究四氯化碳/乙醇诱发小鼠肝癌肠-肝-脑损伤机制及小柴胡汤的干预。研究方法:(1)动物模型和组织病理肝癌模型组:腹部皮下注射25%四氯化碳-橄榄油溶液(5m1/kg,2次/周)和
目的苗药九仙罗汉接骨汤促进兔胫骨干骨折愈合的动物实验观察。方法采用传统中药方法煎煮,制备成实验所需浓度的煎剂,微孔滤器过滤除菌备用。新西兰大白兔右胫骨前部中断造成
目的:分析莫沙比利联合小剂量地西泮治疗功能性消化不良患者临床疗效和安全性.方法:应用随机数字表法将我院消化内科2010-09/2012-09治疗的160例功能性消化不良患者分为对照组和
名词和动词的关系问题一直是语言学和计算语言学界关注的热点。英语是具有形态变化的语言,其词尾形态经常预示着词语的词性和词用。英语双音节和多音节及物动词大多可以通过添
目的:研究补阳还五汤对断指再植术后感觉功能恢复的影响,从中医学和现代医学两个角度探讨补阳还五汤促进断指再植术后指神经再生的作用机制,为中医药治疗断指再植术后指神经损
医院财务人员轮岗制度是医院财务管理工作中的重要内容,在新会计准则下,医院财务工作的重要性日益突出,对医院财务人员轮岗制度的运行能力提出了更高的要求。这就要求相关人
<正>网络安全与信息化发展是新时期我国的立国之本和强国之匙,能否尽快扭转网络信息关键技术受制于人的格局是决定我国网络强国战略成败的关键,关系到我国经济社会发展与国家