论文部分内容阅读
为了能在海量的文本中及时准确地获取有效的知识和信息,本文对多类别分类方法进行了研究,设计并实现了一个中文文本分类器。该分类器主要包括预处理模块、特征处理模块、文本表示模块和分类器模块。重点研究了特征提取部分和文本表示部分。分类器包括训练过程和测试过程。在训练过程中,采用了计算机、艺术、教育、交通、环境、经济、医药、军事、政治、体育等10个类别的近千篇文本进行训练,为了测试分类器的性能,选用了不同类别的上百篇文本进行测试,实验结果表明该分类器的分类准确率在90%左右,分类效果较为理想。