论文部分内容阅读
文本分类是数据挖掘中一个重要的研究领域,KNN文本分类算法是一种基于实例的、非参数的文本分类方法,是向量空间模型(VSM)下最好的文本分类方法之一。其主要步骤有:文本分词,特征提取(特征权重的计算和特征词的选择),表示特征模型的建立,训练分类器。其中处于文本分类系统核心地位的是特征提取,特征提取方法的好坏对文本分类的结果有重要影响。传统的特征提取方法是属于基于统计的方法,如文档频度(DF)、期望交叉熵(ECE)、几率比(OR)、信息增益(IG)、互信息(MI)、χ~2统计(CHI)、术语强度等。以上方法存在诸多不足:当类别和特征分布高度不平衡时,不能有效地处理低频词;对于单个特征的处理不当,导致局部最优解的产生等。此外,KNN分类算法中能否选取合适的K值会影响分类结果的质量,采取固定K值的方法有其自身的缺陷,它忽略了训练文本类别和文档数目对K值的影响,如果K值过大,在选择K个近邻的时候,分类结果易趋向于文本数目较多的类别,分类性能较差;而K值选择过小,得到的近邻数少,会降低分类精度,同时也放大了噪声数据的干扰。针对特征提取技术中的问题,本文提出基于遗传算法的特征提取算法,此方法将词条的χ~2统计值引入到特征向量中,χ~2统计值能标识词条与类别的关联度的大小,将此种向量作为遗传算法的初始种群进行启发式搜索能提高分类的准确率,与此同时,针对特征提取的性质,本文提出新的适应度函数和交叉规则。实验表明,基于遗传算法的特征提取算法能选择出准确表征文本类别的特征项。针对KNN分类算法采用固定K值的缺陷,本文提出一种动态获取K值的策略,实验表明,动态获取K值的KNN分类算法具有较高分类性能。本文将基于遗传算法的特征提取算法运用到动态获取K值的KNN分类算法中,在数据集上的实验结果表明了特征提取算法的改进与动态获取K值的结合能有效的取得高质量的分类结果。