论文部分内容阅读
随着互联网的快速发展,各种信息风靡网络,而这些网络信息主要通过文本的形式来表达,因此对文本数据进行合理有效的处理是十分必要的。文本分类是进行信息挖掘的一种重要数据分析方法,它能够从数据中挖掘关键信息并构建模型,使计算机从过去的数据中获取知识,解决问题。传统的文本分类方法在要求有充足标注数据训练模型的同时还要求训练数据与测试数据属于同一分布。支持向量机(SVM)作为常用文本分类方法之一,特别适合处理像文本这样的数据集较大的分类问题。然而,SVM在处理分类问题时也常会因为训练样本不充分而无法学习到高精度的分类模型。近年来,在SVM算法中引入半监督学习模式,利用大量未标注数据与少量标注数据共同训练分类器,在一定程度上解决了训练数据不充分的问题,但半监督学习仍需满足训练数据与测试数据同分布假设。迁移学习是最近兴起的一种有效解决上述问题的学习方式,其可以利用相似领域中大量标注数据来帮助新领域目标任务的学习。于是在SVM中引入迁移学习,在提供大量标注数据的同时还放宽了对数据分布的要求。本文通过结合迁移学习和半监督学习来研究文本分类问题,主要研究内容如下:(1)针对传统有监督SVM文本分类方法的不足,详细描述了半监督式的自训练SVM分类方法,包括其基本思想、具体流程以及存在的缺陷。(2)针对以往SVM迁移学习方法在训练过程中大量迁移与目标数据很不相似的源领域数据的问题,提出了一种利用源域支持向量进行相似迁移的方法。该方法先利用源领域训练得到的支持向量代表源领域数据,再利用源域支持向量与目标训练集的相似度来衡量源域数据的重要性,进而有效的对源领域知识进行迁移。(3)考虑到未标注数据可能包含有对分类起重要作用的信息,提出了结合目标领域未标注数据共同学习分类模型的基于半监督的SVM迁移学习分类方法。该方法以SVM迁移模型为基础分类器,给未标注数据带上初始标签并共同学习分类模型,进一步提高了分类器性能。将本文提出的SVM迁移学习方法以及基于半监督的SVM迁移学习方法与传统的SVM方法在20Newsgroups数据集上进行实验对比,证明了本文提出方法的有效性。然后与传统的文本分类方法进行比较,证明了本文方法的可行性与优越性。