论文部分内容阅读
随着信息技术的不断发展,世界已逐渐变成一个信息的海洋,人们被信息浪潮所淹没,如何实现大量信息的自动分类,并且从这些信息中自动分类出有用的信息是一个重要的研究领域。文本作为信息的主要载体,对文本分类算法进行研究意义重大,而主动学习的引入又进一步改善了文本分类算法的性能。支持向量机(SupportVectorMachine,SVM)主动学习方法已被广泛应用在文本分类技术当中,但是一般的SVM主动学习方法面临两个问题:一是标记样本稀缺;二是待标记样本存在大量冗余。 本文对文本分类中SVM主动学习方法做了详细的研究,为了应对上述存在的问题,在已有的应用在分类问题当中的SVM主动学习方法的基础上,对SVM主动学习方法进行了改进,提出了一种新的半监督支持向量机主动学习(SS-SVM-AL)算法。具体内容如下: (1)首先介绍了课题的研究背景和在国内外的研究现状与发展现状,文本分类的相关理论和技术;支持向量机和主动学习的理论的基本思想和实现技术;研究了传统SVM主动学习和半监督学习的理论知识和经典方法。 (2)针对存在的标记样本稀缺的问题,运用半监督的思想对其进行了改进,充分利用所有未标记样本信息包含的空间结构信息,混合标记样本集和未标记样本集构造训练集,克服了单纯用标记样本来训练分类模型样本数据集几何特性不充分的缺点,构造出一个半监督核函数,从而得到泛化能力更强的半监督支持向量机。 (3)针对存在的样本冗余问题,设计了一个基于最大-最小框架的主动学习方法,能够从未知样本集中挑选出具有代表性的样本,并确保样本之间有较大的差异,可有效应对样本冗余问题,提高分类结果的质量。 (4)在此基础上,给出了SS-SVM-AL算法,并将该算法应用到标准文本分类数据集上对比其他同类算法,结果表明了SS-SVM-AL算法的有效性。