论文部分内容阅读
互联网的发展和信息技术的进步,带来了信息量的猛增,人们很难在浩瀚的信息中找到真正需要的信息,虽然各种搜索引擎的出现在一定程度上解决了这一问题,但是各种搜索引擎都是简单的看是否包含关键字,这样搜索结果十分庞大,并且不利于用户找到需要的信息。文本自动分类是一个有效的办法,已经成为一项具有使用价值的关键技术。近年来,多种统计理论和机器学习方法被用来进行文本的自动分类,掀起了文本自动分类的研究和应用的热潮。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。寻求一种有效的词语权重的计算方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中的首要问题。因此,本文在研究中文文本分类的过程中,重点放到了词语权重的计算方法的改进上,在此过程中做了如下的工作:①分析了传统词语权重计算方法的三个缺点:第一,没有考虑特征项在类间的分布信息。第二,没有考虑特征项在类内的分布信息。第三,没有考虑特征项不完全分类的情况。本文从词语的频度,集中度和离散度三个角度进行考虑,提出了本文的词语权重计算方法:TF-IDF-DI-WFDB。②用特征词在类间和类内部的离散度来描述特征词在类间和类内部分布的情况,形成了TF-IDF-DI的词语权重计算方法;同时进一步,针对传统词语权重计算方法没有考虑特征项不完全分类的情况,引入了词频差异WFDB来进行修正,从而形成了本文的词语权重计算方法:TF-IDF-DI-WFDB,弥补了上述缺点。③用实验证明,本文提出的改进的词语权重的计算方法TF-IDF-DI-WFDB,用于KNN分类结果,好于传统词语权重计算方法用于KNN的分类结果。实验结果表明,无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,改进的词语权重计算方法的分类效果都要好于用传统的词语权重计算方法的分类效果。④在改进的词语权重的计算方法TF-IDF-DI-WFDB的基础上,本文进一步用遗传算法的寻优能力来训练分类器。实验表明,能够达到比传统KNN分类算法略好的分类效果,进一步表明:本文对词语权重的计算方法的改进,是正确可行的。