论文部分内容阅读
特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表迭式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱。文中提出了一种改进的特征选择算法(I—TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率。实验结果表明I—TFIDF比传统的TFIDF算法具有更好的性能。