论文部分内容阅读
特征选择在文本分类中是一个非常重要的过程.目前,大多数方法均是在文档层面上进行的,然而,这些方法未很好地考虑词频对文本分类的影响.因此,本文提出一种基于词条分布的特征选择算法FSATD,该算法充分考虑了词条的词频、类内分布和类间分布.实验采用KNN分类器,在20News-Group和SougouCS数据集上的实验表明,FSATD算法的分类效率高于DF和t-test.