论文部分内容阅读
传统DFS特征选择算法在降维处理时既未考虑样本分布不均的情况,又未涉及负特征词对类别的影响。综合考虑DFS的缺陷并进行优化处理,将DFS与卡方检测算法CHI结合,提出一种改进型特征选择算法DFS-sCHI。引入负特证词作为类别划分的影响因子之一,解决不平衡数据集下所提特征词类别分布不均的问题。经实验分析,不平衡数据集下,DFS-sCHI相比较于DFS在分类精度上有明显提高。