论文部分内容阅读
文本分类是数据挖掘中一个常见的研究热点方向,K-最近邻分类方法是一种用实例解决问题的分类方法,在向量空间模型下,是一种比较好的文本分类方法。其主要步骤有:文本预处理,特征选择(计算特征词的权重和选择特征词),表示文本的特征模型的建立,训练分类器,用分类器进行分类。其中特征选择是文本分类中最重要的,能否利用特征选择选出合适的特征词对分类的效果有重要影响。能否利用特征选择选出合适的特征词会直接影响分类的效率和效果。许多研究表明,互信息特征选择方法是很好的特征选择度量算法之一。任意两个随机变量的统计相关性可以用互信息是加以衡量。在文本分类中,互信息特征选择存在以下三点不足:(l)只考虑了特征词出现的文档频率,即特征词在几篇文档中出现过,而没有考虑特征词在文本中出现的频度,即特征词出现了多少次。(2)互信息方法没有考虑特征词之间的统计关联性,只考虑了特征词与类别之间的统计关联性。(3)文本训练集中各个类别中的文本数量会影响对计算特征词互信息,但这点没有想办法解决。如上所述互信息方法的缺点,针对以上不足,本文通过引入最小特征冗余度量法,加入特征类频度和特征类内分散度两个参数,同时在计算特征词文档频时设置其在文本中需要出现的最小词频,提出了一种基于特征词词频的互信息特征选择方法。此外,K-最近邻分类算法中如何确定合适的K值以达到最佳分类效果,采取预先确定固定的K值的算法有着明显的缺陷,它没考虑到训练文本集合各个类别的文档数目对K值选取会产生影响,如果K值选择太大,在选择K个近邻的时候,容易使分类结果趋向于含有文档数较多的类别,分类效果不好;而如果K值选择太小,得到的相近文档数太少,会使分类精度降低,而且会放大噪声数据的干扰作用。针对K-最近邻分类算法采用固定K值的缺陷,本文提出一种动态获取K值的策略,实验表明,动态获取K值的K-最近邻分类算法具有较高分类性能。本文将基于文本词频的互信息特征选择算法运用到动态获取K值的K-最近邻分类算法中,在数据集上的实验结果表明了特征提取算法的改进与动态获取K值的结合能有效的取得高质量的分类结果。