论文部分内容阅读
文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这些信息进行组织整理既费时费力且效果不理想,文本分类由于利用机器来对文本进行分析整理,使用户从繁琐的文档处理工作中解放出来,并能极大地提高信息的利用率,而受到越来越多的重视,已广泛应用于文本处理和文本检索的各个领域,成为处理和组织大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展。 本文首先研究了文本分类的背景和发展现状,阐述其系统结构,对文本分类的几个关键技术:文本特征生成、特征选择与降维、权重的计算和文本分类技术的各个算法进行了分析和评价。 然后鉴于高分类精度需要大规模已标记训练集而已标记文档缺乏,利用未标识文档进行学习的半监督学习算法已成为文本分类的研究重点这一情况,着重研究了半监督分类算法。对现有的各个算法进行了比较分析,发现当已标识文档很少时,比如每类少于10个已标识文档时,这些算法会错误地估计最初的数据分布而降低了其分类的正确性。对此提出了一个基于聚类的分类算法,对已标识文档和未标识文档一起聚类,通过聚类扩大已标识文档集,提高了分类器分类的准确性。 最后本文设计了一个中文文本分类原型系统,为保证测试的准确性,采用了不同的数据源进行测试,并根据网页文档的特殊格式、特征词的频率、文档的长度以及特征词的长度四个因素对文本特征进行了加权处理,最后用SVM,TSVM,Co-training与本文提出的算法进行了有监督学习性能测试和半监督学习性能测试。通过以上测试表明,当有足够的已标识文档时,本算法与其它算法性能相当,但当已标识文档很少时,本算法优于现有的其它算法。