论文部分内容阅读
本文研究使用粗糙集对文本分类的方法,提出一种双重特征选取的特征项选取方法,该方法将加权后的TF-IDF和CHI两种方法相结合,取它们的交集,这样可以过滤掉一些代表性较弱的特征词。另外本文对基于区分矩阵核的启发式约简算法做了改进,加入了一个代表性强的特征词集,以保证重要的特征词不被约简掉。实验表明使用双重特征选取和改进后的启发式约简所得的分类效果良好。