论文部分内容阅读
随着信息技术的不断发展,特别是互联网的不断发展,网络中每天都会产生大量的信息,面对这些海量信息,如何选取符合自己实际需要,符合自己能力水平,符合自己阅读习惯的信息,是网络时代人们面临的一个问题。在该背景下,文本自动分类技术应运而生,在数据挖掘、信息检索及机器学习等领域,经过长时间的运用和改进,实用性大大增强。在文本自动分类技术中,人们面临的一个首要问题是如何减少特征向量空间的高维性,合理表征特征向量的稀疏性。因此,本文从特征值提取、特征权重计算、文本自动分类算法等角度,分别提出了相应的改进方法,具体做了以下几个工作:1.针对传统的特征值提取方法中只考虑词语之间的词汇关系,而忽略词语之间的语义关系的缺点,本文提出了基于多重启发式规则的特征值提取方法。实验表明,该方法可以有效降低特征向量空间维数,提高分类准确性。2.针对传统的特征权重计算方法TF-IDF存在未考虑类间、类内及不完全分类的情况,本文结合TF-IDF与类间、类内和不完全分类等情况改进了特征权重计算方法。实验表明,该方法可以有效地提高分类的F1值。3.针对传统KNN邻近算法在实际使用过程中存在的计算量繁杂的不足,本文基于代表样本概念,对传统KNN邻近算法进行了修改。实验表明,该方法可以有效地降低计算量和提高文本自动分类的准确性。