迁移学习在文本分类中的应用研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jwqpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化浪潮的席卷全球,数据量的爆炸式增长。海量数据的复杂性和非结构性给信息的处理带来了巨大的挑战。而文本资源以其占据资源量少、容易上传和下载等优点占据了整体信息量的百分之八十以上,因此如何快速而高效的管理和利用这些文本资源就成了函待解决的问题。文本分类技术也就应运而生,所谓的文本分类就是在指定的分类体系下,根据待分类文本的内容自动将其归属于某个类别或某几个类别的过程。现如今传统的文本分类算法如:K最近邻、支持向量机等都是基于统计学习理论的,不能应用之前已经学习过的知识对新的数据集进行分类,并且要求训练数据与测试数据必须满足同分布。针对这样的问题,本文将迁移学习模型引入到文本分类中。迁移学习是认知理论中的一个基本概念,其主要的意义就是一种学习对另一种学习的影响。迁移学习理论让应用以往学习过的任务经验来学习新的任务。其中基于实例的迁移学习适合应用到文本分类体系。本文首先根据传统特征提取算法应用在迁移学习中的不足而提出了一种基于两个阶段提取的特征提取算法,实验表明算法有效的提高了在迁移学习中特征提取的准确率;然后本文将Boosting的增强学习概念引入BP网络中完成实例层次的迁移,通过引入大量的辅助训练数据来对少量与测试数据同分布的目标数据构建起一个良好的分类模型,不仅摆脱了传统分类因训练数据不足得不到良好的学习效果的缺陷,也解决了原本分类的体系对数据集的依赖性。并经过实验得到良好的结果。
其他文献
SIP(SessionInitiationProtocol)应用服务器作为一种轻量级的软交换应用服务器解决方案,也在近两年日益赢得人们的青睐。然而在大呼叫情况下,应用服务器的业务处理能力成为了应
随着计算机网络技术的迅猛发展,越来越多的企业依赖网络来实现办公自动化和开展商业交易活动,然而,由于企业电子公文涉及到企业的商业秘密及其核心利益,而电子公文在网络中传送时
随着计算机网络技术和多媒体技术的发展,Internet正在成为许多实时多媒体应用的重要载体,如音/视频会议、网络直播、网络游戏等。这些需要高带宽低时延的应用对组播通信服务
自1993年美国首次提出“电子政务”(E-Government)概念以来,一场政府政务模式全面变革运动正在全球范围内轰轰烈烈的进行着;至今,十几年来的建设效果证明,电子政务的深入发展,极大
二十一世纪是信息技术高速发展的时代,随着移动互联网的高速崛起,随时随地的信息交流成为人们日常生活中不可缺少的一部分。伴随着信息技术高速发展的网络信息安全问题,也逐
随着互联网的迅速发展,分布式环境下的跨多自治域访问已经成为可能。多域间的跨域访问提供了一种分布式的资源共享的方式,从而提高了资源的利用率。同时,多域间的访问引起的安全
集成了计算机技术、通信技术、半导体技术的无线传感器网络能够根据用户的需求对各种监测对象进行实时的信息采集、处理,具有非常广泛的应用前景,对扩宽人类的认知领域、改变
地下管网是现代化城市一个既庞大又重要的公共供应网络,具有种类繁多、结构复杂、数据量大等特点。积极研究将先进的计算机理论和技术稳妥地应用于管网日常维护、规划和建设,有
粗糙集理论是一种新的处理不确定性知识的数学工具。近年来,粗糙集理论在知识发现中的应用已取得了很大的进展,基于粗糙集理论的方法逐渐成为数据挖掘主流方法之一,而在数据挖掘
安全匿名的网上投票协议的研究计算机软件与理论专业研究生陈娟指导教师袁丁随着网络的迅速发展,电子选举作为电子政务的一个重要方面逐渐被应用到现实选举中。与传统的人工选