论文部分内容阅读
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取。本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重。为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度。采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试。实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.