基于模糊粗糙集的压缩近邻规则比较研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:leolover211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近邻规则是模式识别、机器学习、数据挖掘中广泛使用的一种基于样本实例的分类方法,该算法通过从训练集中寻找与待分类样本最近的样本来确定其类别。然而近邻规则的一个最大的缺点是在计算未见样本的所属类别时,需要计算该未见样本与训练集中所有样本的距离,算法的时间复杂度和空间复杂度都很高。另一方面,在判断未见样本的所属类别时,训练集里的所有样本都被看成是同等重要的。那么,如果训练集中的样本存在不一致性,近邻规则的性能会大大降低。针对以上两个问题,降低训练集的规模成为近邻规则的研究热点。模糊粗糙集是将粗糙集和模糊集结合起来处理不精确和不确定信息的数学理论。目前关于模糊粗糙集的研究主要集中在模糊粗糙集的定义及其约简上。从模糊粗糙集的定义中可以得出样本隶属于上近似集合、下近似集合以及边界域集合的程度,而这些隶属度表明了样本的重要程度。本文提出了两种基于模糊粗糙集的模糊压缩近邻规则(CFK-NN1和CF K-NN2)和一种改进模糊近邻规则,并对不同的压缩近邻规则进行了比较研究。这两种压缩规则包含三个步骤:(1)利用模糊粗糙集技术求得一个模糊属性约简;(2)分别从模糊粗糙集正域(边界域)中选取样本子集;(3)从样本子集中抽取模糊分类规则。在若干数据集上得到的实验结果以及对实验结果的统计分析证实了两种方法是可行的、有效的,并且优于之前学者提出的压缩近邻规则,比如CNN,RNN,ICF等。比较研究得出了以下结论:算法CFK-NN1选择的样本个数比算法CF K-NN2,CNN,RNN和ENN选择的少,比算法ICF和MCS选择的多。算法CF K-NN1的测试精度比算法CF K-NN2的测试精度稍高,但两个算法的测试精度都高于其他算法。
其他文献
随着焊接过程自动化和智能化的发展,焊接质量信息的提取越来越受到国内外学者们的关注。伴随着对视觉监控领域多年的研究与计算机视觉技术的发展,视觉传感技术现如今已成为焊接
现如今竞争日益激烈的知识经济时代,知识快速有效的获取成为了企业提高自己核心竞争力的关键所在。船舶行业的信息化也在飞速发展,为了使得船舶有着最好的运行状态,船舶行业对循
机会网络是一种不需要源节点和目的节点之间存在一条完整的链路,利用节点移动带来的相遇机会实现通信的自组织网络。机会网络中,节点的移动等原因导致网络间歇性连通甚至不连通
无线传感器网络由传感器节点组成,节点之间通过路由进行数据的传输。然而,传感器节点微小,易受资源约束,因此建立能量高效的路由协议显得十分必要。地理位置路由协议利用位置
随着现代计算机技术、通信技术及互联网技术的迅速发展,电子商务等领域正面临海量的流式数据。同时,由于数据产生的随机性和数据收集的不完全性,数据采集过程中产生了大量的不确
嵌入式系统领域的高速发展,给嵌入式处理器的设计带来了多方面的挑战,嵌入式系统开发已开始向高度并行化、高实时性和可扩展方向发展。堆栈式处理器具有硬件支持的堆栈、简单的
数字签名作为网络环境中手写签名的电子模拟可以解决信息传送过程中的否认、伪造、篡改等问题。1996年,Mambo,Usuda和Okamoto等提出了代理签名的概念,代理签名可以很好地解决数
无线传感器网络中,传感器节点的能量、通信、计算能力都有一定的局限性,如何使节点间通过相互作用自组织协作地发挥整体作用,设计能量高效的拓扑、路由等方法自组织以延长网
分布在监测区域内的传感器节点采集业务数据,通过无线传感器网络反馈给管理者,但如果没有地理位置信息这一切都将是徒劳的,因为管理者无法知道需要采取措施的具体地点。优秀
目前,水资源紧缺已成为许多国家或地区农业发展的障碍,在农业生产中,如何有效地利用水资源将是各国研究者的重点研究课题。土壤墒情是指土壤的含水量情况,表明了土壤的水分分布状