论文部分内容阅读
自动文本分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征判断其所属类别的过程.现有的文本分类算法如:KNN、SVM大都基于向量空间模型,没有考虑文档的语义特征信息。本文根据文档相似性矩阵构造文本相似图,在图中提取文本团(完全子图),这些文本团可以反映每个类别的主题信息,由此构造分类器,进而与经典的分类器组合,进行文本分类.在复旦大学中文文本分类语料库和20 Newsgroups上进行实验,实验表明本文提出的分类方法较大改进了分类性能.