基于实例迁移学习的文本分类研究

被引量 : 0次 | 上传用户:mllx03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断成熟,各种各样的资源以各种形式出现在网络中,而资源中蕴含的信息则开始呈现爆炸性增长。如何从这些海量信息中寻找那些人们所需要的信息自然而然地成为了让人们困扰不已的问题,数据挖掘技术作为解决这个问题的答案自然而然地受到了人们的追捧,自出现伊始就成为了学者们研究的热点问题。而在这些数量惊人的信息中,有相当一部分信息是以文本的形式储存的,而文本分类作为文本挖掘的一个重要应用也不可避免的吸引了人们热切的目光。针对文本分类技术的研究主要分为两个时期:基于知识工程方法的时期,以及基于机器学习方法的时期。基于知识工程的方法需要领域专家的参与,由他们来编写用于分类任务的规则。由于基于知识工程方法的低效性与局限性,这项技术虽说也取得了一些成果,但很快的就被人们所淘汰,而基于机器学习的方法则是用计算机来代替人工进行自动分类,将人力解放出来,这种方法的效率非常高且具有极强的可移植性,所以迅速地获得了人们的青睐。迄今为止,基于机器学习方法的文本分类技术已经趋向于成熟,取得了许多让世人瞩目的成果,但是,这种技术也有其自身的局限性,因为传统的机器学习方法是建立在统计学理论基础之上的,而这就必然要求用于训练分类器的训练集和测试分类器性能的测试集都要服从相同的分布。但有的时候,对于一个新领域的文本分类任务,我们可能无法得到足够的训练集样本,或者是由于收集这些样本代价巨大,或者是我们根本不能收集到任何样本。人们自然而然地想到能否利用以前学习过的其他领域的领域知识或任务知识来帮助改善这个领域的分类任务,而由于其自身的特质,传统的机器学习方法对此无能为力,迁移学习作为一个新的研究方向就是为了解决这个问题而提出的,它可以将先前学习过的其他领域的知识应用于新的领域,只要这两个领域足够相似,就可以取得比较让人满意的效果。在我们的论文中,我们首先描述了文本分类的一些已经成型的且比较成熟的理论,依次描述了文本分类过程的各个部分:文本预处理,包括文本的向量表示与对特征项的加权、特征抽取和目前较流行的文本分类算法,还总结了评估分类器的方法与标准;然后介绍了迁移学习的基本理论与研究进展;最后,我们设计了一个基于实例迁移的文本分类算法来完成文本分类任务,这种算法是对经典文本分类算法AdaBoost的扩展,它利用其他相似源领域的标记数据集中的样本,经过重新加权后来扩充目标领域的训练集,以生成一个精度比较高的分类器。它的基本思想是给那些能引起正迁移的源领域中的样本赋予更高的权重,而造成负迁移的源领域中的样本则赋予较低的权重,同时调整每个单独的样本的权重。经过实验证明,我们的算法在给定一些源领域的样本集合,这些源领域有的与目标领域相关,有的不相关,和一些较少的目标领域训练样本的情况下,我们能获得一个比较可信的分类器。
其他文献
目的:研究腰椎矢状曲度及腰椎活动度与退行性腰椎不稳是否存在相关性,进而为临床上腰椎不稳的诊治提供一定的参考数据;背景:腰椎不稳是引起下腰痛的常见原因。自1985年Kirkaldy-W
对古代中国而言,"选举"指的是以皇帝名义进行的某种选贤任能的人事制度;对古代西方而言,"选举"指的则是以不同阶级制度为基础的代表制度,其目的在于分享特定事务的决定权。在
随着石油资源的日益减少及环境污染的日趋加重,低消耗、低污染的新能源汽车的研制逐渐成为汽车行业的主导研究方向。纯电动客车作为纯电动汽车的分支之一,在汽车行业有较好的发
当今平板电脑和大屏幕智能手机的普及为便携式心电监护仪的发展带来了机遇。针对这种发展趋势,本文设计了便携式的ECG(人体心电)信号的实时采集、处理和传送系统,该系统由FPG
"先具备条件,后审批"是我国各级政府现行的行政审批程序。这种程序导致公民、法人或者其他组织可以先"从事特定活动",后要求行政机关审批。改革开放以来出现的无序建设、产能
近年来,中国在取得举世瞩目的经济增长的同时,也付出了沉重的环境污染和生态破坏等代价。根据《2008年中国环境状况报告》,我国目前面临的环境形势仍然十分严峻。从未来发展的趋
近年来小贷公司发展迅速,其作为传统银行的互补,发挥了小额、分散的优势,不断地解决中小微企业融资以及“三农”难题。目前小额贷款公司大多以民营资本为主,其经营灵活,放款时间短
纯电动客车整车控制器作为纯电动客车整车控制的核心,对纯电动客车的安全、稳定、可靠运行具有重要的作用。在纯电动汽车整车控制单元的开发过程中,整车控制器的测试和标定作为