论文部分内容阅读
KNN算法对错误标识的训练样本和那些处在各类样本边界处的新文本的分类比较敏感,往往会导致难以得到理想的分类效果。所以说训练样本集选取的好坏是KNN算法进行文本分类的关键。为此,本文提出一种基于粗糙集和分布密度理论相结合的KNN分类样本选择方法,先利用粗糙集理论的下近似集从训练文本中选取出典型的文本类别样本,同时消除那些被错误标识的样本,然后再用基于密度的KNN分类训练样本选取方法,使训练样本分布尽量均匀,从而保证了KNN分类器的准确率。实验结果表明,该分类样本选取方法能改进KNN文本分类系统的性能。