论文部分内容阅读
文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对于信息处理的意义变得更加重要。本文讨论了基于词典分词和基于n-gram信息提取的两种中文文本特征获取方法,提出了将两者相结合的方法,为分类系统提供更多类型的文本特征,从而达到提高分类性能的目的;并进一步研究了冗余特征对于文本分类系统的影响,结果发现,冗余特征对于文本具有良好的表示作用,由此得出结论:基于统计的文本分类的本质是一种对文本字符特征的识别,因此,在提取文本特征时,无需过分追求语义特征的提取;最后,在详细分析了文本学习及支持向量机学习算法的特点之后,提出了一种利用训练集中的拒识样本信息对分类器输出进行改进的方法,提高了系统的分类性能。