论文部分内容阅读
信息技术的飞速发展和互联网的广泛普及使得人们越来越容易地得到信息。然而,互联网的信息往往是包括各个行业的文本数据,为了高效地获取相关类别的中文文本信息,有必要对中文文本进行快速分类。
本论文主要研究如下:首先介绍了中文文本分类的关键技术,包括:文本的表示方法,文本相似度计算方法,类别特征抽取,特征权重算法,文本分类算法,分类算法的评价指标;然后,通过对传统KNN算法在特征项选取方面的问题进行分析,提出了基于同义词概念的文本分类算法,提升了传统KNN中文文本分类算法的准确率;通过对KNN中文文本分类算法的流程的改进,提出了基于KD-Tree的改进KNN中文文本分类算法,增加了KNN中文文本分类的效率。
本文的改进工作有以下两点:
一、改进了特征项选择方法。将传统KNN中文文本分类算法在特征项的选取上从特征词的层面提高到了同义词概念的层面。传统KNN中文文本分类算法在特征项选择上是计算各个词语的贡献度,选择对分类共享大的词作为特征项,这会产生候选特征项极多并且候选特征项词语并不真正总是对分类贡献大的问题。针对这一问题,本文将文本分词后的词语进行同义词概念归纳统计,在同义词概念的基础上进行特征项选取,计算概念特征项权重,计算文本向量。这样就可以减少文本向量的维数,并且使得各个特征项能够比传统算法更真实地代表某个类别,使得基于概念的同类文本向量相互接近,不同类文本向量相互分离,从而提升了算法的准确率。
二、改进了KNN文本分类算法的流程。传统KNN中文文本分类算法的训练时间为零,测试时间却极长,这个缺陷大大影响了KNN算法的实用性。针对这个问题,在KNN算法测试前,将测试集全部插入k维二叉搜索树即KD-Tree,这样,计算每个训练集文本的最近邻文本时不必和测试集文本进行一一比较,只需在KD-Tree中平均搜索O(log2N)次即可找到。
实验结果证明:在准确率上,基于概念的文本分类算法比传统KNN文本分类算法准确率要高,而且对那些文本数比较少的类别提升明显;在效率上,本文所提出的改进KNN中文文本分类算法比原始KNN中文文本分类算法在效率上有了较大提高。