论文部分内容阅读
WWW的出现导致网站上的文本成指数级增长,因此如何自动处理这些海量联机文本成为目前重要的研究课题。自动文本分类是文本信息处理中的一个重要环节。 本文研究文本的自动分类算法。本文对常用的文本分类算法进行了评价,并且对这些算法在文本分类的应用进行了讨论。文本分类算法是有监督的学习算法,它需要一个分类好的,类别已标识的文本数据集训练分类器,然后用训练好的分类器对未标识类别的文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类好的文本是一种昂贵的资源,文本分类算法要解决的一个重要问题是要减少训练集中人工分类的文本数量,同时保证其精度。针对这一问题,本文从以下两个方面进行了研究。 首先,研究了在训练集较小的条件下提高分类精度的问题。本文在最近特征线算法的基础上,结合k近邻算法的思想,提出一种k最近特征线文本分类算法。实验结果表明,该算法在训练集较小的情况下,算法可以具有较好的性能。 本文的另一贡献是采用未标识文本来扩充训练集,提出了迭代TFIDF算法。网上存在大量文本,这些文本一般都没有类别标签,该算法可以利用大量廉价的未标识文本,结合很少的手工标识文本,通过迭代训练出较高精度的TFIDF文本分类器。实验结果表明,在同等实验条件下,该算法精度高于已有的EM贝叶斯文本分类算法。迭代TFIDF算法属于爬山算法,初始值的选取对精度影响较大,算法容易收敛到局部最优值。 针对迭代TFIDF算法存在的局部最优问题,本文引入主动学习的概念,提出了基于主动学习的迭代TFIDF算法。实验结果表明,主动学习可以有效的抑制算法收敛到局部最优值,进一步提高了算法精度。