论文部分内容阅读
互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,由于中西文之间的巨大差异,国外在文本分类方面的研究成果无法直接应用于中文文本分类,因此对中文文本分类技术的研究具有非常重要的现实意义。本文对中文文本分类的相关技术进行了研究,对文本表示模型及常用的文本分类算法进行了评价,并且对这些算法在中文文本分类中的应用进行了讨论。对单字词和多字词作为文本特征的优缺点进行了分析研究。在此基础上,本文提出了一种可快速分词的两层结构分词表模型、一种新的特征选择算法和一种新的特征加权算法。文本分类算法是有监督的学习算法,需要一个已分好类的文本数据集来训练分类器,然后用训练好的分类器对新文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类的文本是一种昂贵的资源,因此在保证分类精度的前提下如何减少训练集中已分类文本数,成为一个需要解决的问题。针对这一问题,本文采用未标识文本来扩充训练集,提出了迭代TFIDF算法,该算法利用大量未标识文本结合少量人工分类文本,通过迭代训练出较高精度的分类器,由于该算法属于爬山算法,容易收敛到局部最优值,针对这一问题,本文引入了主动学习的概念,提出了基于主动学习的迭代TFIDF算法,实验结果表明,主动学习可以有效抑制算法收敛到局部最优值,并且在同等条件下,该算法精度明显高于已有的TFIDF算法。