论文部分内容阅读
由于KNN(K Nearest Neighbor)文本分类器的待分类文本数据维数和计算次数较高,其耗费的时间和空间成本也很高,故引入粗糙集的属性约简算法对待分类的数据进行预处理。提出了基于属性序的处理方法和算法,解决粗糙集属性约简中的NP-hard问题。降低算法计算量从算法本身和运算技巧两个层面出发:在粗糙集区分矩阵的关键环节正区域计算上提出递减式计算方法,减少等价类的计算工作量;运用去停止词的查表法、位置信息在属性序中的引入及倒排索引的检索方法等来进一步降低系统的运行时间和空间成本。通过实验验证,经过粗