论文部分内容阅读
近邻规则是模式识别、机器学习、数据挖掘中广泛使用的一种基于样本实例的分类方法,该算法通过从训练集中寻找与待分类样本最近的样本来确定其类别。然而近邻规则的一个最大的缺点是在计算未见样本的所属类别时,需要计算该未见样本与训练集中所有样本的距离,算法的时间复杂度和空间复杂度都很高。另一方面,在判断未见样本的所属类别时,训练集里的所有样本都被看成是同等重要的。那么,如果训练集中的样本存在不一致性,近邻规则的性能会大大降低。针对以上两个问题,降低训练集的规模成为近邻规则的研究热点。模糊粗糙集是将粗糙集和模糊集结合起来处理不精确和不确定信息的数学理论。目前关于模糊粗糙集的研究主要集中在模糊粗糙集的定义及其约简上。从模糊粗糙集的定义中可以得出样本隶属于上近似集合、下近似集合以及边界域集合的程度,而这些隶属度表明了样本的重要程度。本文提出了两种基于模糊粗糙集的模糊压缩近邻规则(CFK-NN1和CF K-NN2)和一种改进模糊近邻规则,并对不同的压缩近邻规则进行了比较研究。这两种压缩规则包含三个步骤:(1)利用模糊粗糙集技术求得一个模糊属性约简;(2)分别从模糊粗糙集正域(边界域)中选取样本子集;(3)从样本子集中抽取模糊分类规则。在若干数据集上得到的实验结果以及对实验结果的统计分析证实了两种方法是可行的、有效的,并且优于之前学者提出的压缩近邻规则,比如CNN,RNN,ICF等。比较研究得出了以下结论:算法CFK-NN1选择的样本个数比算法CF K-NN2,CNN,RNN和ENN选择的少,比算法ICF和MCS选择的多。算法CF K-NN1的测试精度比算法CF K-NN2的测试精度稍高,但两个算法的测试精度都高于其他算法。