基于半监督的SVM迁移学习文本分类方法

来源 :广东工业大学 | 被引量 : 11次 | 上传用户:yhh9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,各种信息风靡网络,而这些网络信息主要通过文本的形式来表达,因此对文本数据进行合理有效的处理是十分必要的。文本分类是进行信息挖掘的一种重要数据分析方法,它能够从数据中挖掘关键信息并构建模型,使计算机从过去的数据中获取知识,解决问题。传统的文本分类方法在要求有充足标注数据训练模型的同时还要求训练数据与测试数据属于同一分布。支持向量机(SVM)作为常用文本分类方法之一,特别适合处理像文本这样的数据集较大的分类问题。然而,SVM在处理分类问题时也常会因为训练样本不充分而无法学习到高精度的分类模型。近年来,在SVM算法中引入半监督学习模式,利用大量未标注数据与少量标注数据共同训练分类器,在一定程度上解决了训练数据不充分的问题,但半监督学习仍需满足训练数据与测试数据同分布假设。迁移学习是最近兴起的一种有效解决上述问题的学习方式,其可以利用相似领域中大量标注数据来帮助新领域目标任务的学习。于是在SVM中引入迁移学习,在提供大量标注数据的同时还放宽了对数据分布的要求。本文通过结合迁移学习和半监督学习来研究文本分类问题,主要研究内容如下:(1)针对传统有监督SVM文本分类方法的不足,详细描述了半监督式的自训练SVM分类方法,包括其基本思想、具体流程以及存在的缺陷。(2)针对以往SVM迁移学习方法在训练过程中大量迁移与目标数据很不相似的源领域数据的问题,提出了一种利用源域支持向量进行相似迁移的方法。该方法先利用源领域训练得到的支持向量代表源领域数据,再利用源域支持向量与目标训练集的相似度来衡量源域数据的重要性,进而有效的对源领域知识进行迁移。(3)考虑到未标注数据可能包含有对分类起重要作用的信息,提出了结合目标领域未标注数据共同学习分类模型的基于半监督的SVM迁移学习分类方法。该方法以SVM迁移模型为基础分类器,给未标注数据带上初始标签并共同学习分类模型,进一步提高了分类器性能。将本文提出的SVM迁移学习方法以及基于半监督的SVM迁移学习方法与传统的SVM方法在20Newsgroups数据集上进行实验对比,证明了本文提出方法的有效性。然后与传统的文本分类方法进行比较,证明了本文方法的可行性与优越性。
其他文献
一个人发生蜕变,不外乎三种情况:要么来于其内心强大的渴望,要么遇到了某件事,要么遇到了某个人,否则,一个人想蜕变是很难的,这就是为什么很多人从开始就能看到死的原因。39
光通信APT系统传输信息过程具有高精度、大容量、高速率、强隐蔽性等优点,作为当今研究热点,在通信领域得到广泛应用。由于APT系统复杂的运行环境和链路稳定的高精度要求,其控制
目前,车内的电子控制系统主要由CAN/LIN网络组成。CAN总线只有两根导线,可直接将节点挂在总线上即可,因此走线少,系统扩充容易,改型灵活。LIN总线是一种低成本的串行通信网络,用于
近年来,行业在克服困难中得到长足的发展和进步,消费市场呈现多样化、经济结构迈向中高端,产业布局日益合理化,社会声誉和形象逐步正面化.2020年是十三五规划全面建设小康社
计算机技术的迅猛发展,正在日益的影响着我们的生活,给我们的生活带来了意想不到的变化。随着计算机技术被运用到虚拟现实领域,我们越来越多的体会到它给我们带来的好处。他让我
随着“三网融合”的逐步推进,对广电提出了多业务运营的市场需求。论文采用J2EE框架和MVC设计模式完成了一套新型广电BOSS(Business and Operation Support System,业务运营支
学位
现代交流调速技术通常分为标量控制和矢量控制。传统的转差频率控制属于标量控制,但该方法实施控制时难以保证系统获得良好的动态特性。转子磁链定向控制和直接转矩控制属于
投稿细则1、专业摄影工作者和摄影爱好者均可参加。2、参赛作品内容应着重反映社会纪实及人们生活。3、数量、题材、风格不限彩色、黑白均可;单幅、组照不限(组照不少于6幅)
当马良挥动他的神笔,万物顿时有了生命。神笔,我们没有,但是我们拥有无穷的创造力。请拿起你的画笔,让音乐变成快乐的精灵飞舞在世界的每一个角落。一、《校园歌声》简介:《
随着世界石油资源的减少和全球电子技术的发展,电动汽车已经成为世界汽车领域的一个研究热点。电动汽车的动力主要由蓄电池提供,不会排放废气而污染环境。电动汽车的控制以电气