基于二进制可辨矩阵的属性约简研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:qiangchengshimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(DM)是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。分类是数据挖掘的一个重要分支,粗糙集方法是数据挖掘中的重要分类技术之一。粗糙集理论是一种处理模糊和不精确知识的数学工具,它具有很强的知识获取能力。粗糙集理论在数据挖掘中的应用是一个较新的研究领域。由于粗糙集理论提供了严格的处理数据分类问题的数学方法,不需要任何数据的附加信息,能够搜索数据的最小集合,可以使用定性与定量的数据,并从数据中产生决策规则集合等优点而得到广泛的应用。 对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果,反而会提高系统潜在知识的清晰度。决策表的属性约简就是约简决策表中的条件属性,约简后的决策表具有约简前决策表的功能,但是约简后的决策表具有更少的条件属性。 本文主要对粗糙集理论中的二进制可辨矩阵进行研究,研究了基于二进制可辨矩阵的知识粒度的有关理论和计算公式。利用获得的公式可计算知识的分辨度和粒度,以及属性的重要度。并利用得出的有关理论进行决策表的属性约简和值约简,提出了两种约简算法:一种是基于二进制可辨矩阵的属性及属性值约简算法,该算法只要扫描一次二进制可辨矩阵,就可求得核属性和去除核属性后,所增加的不能被正确分类的对象,从而得出核值。同时将吸收律应用于各析取式,可求得条件属性的约简集,从而得到具有约简属性的核值表。该算法使得属性约简和属性值约简得以一致计算,大大缩短了约简时间。 另一种是基于二进制可辨矩阵的重要度的属性及属性值约简算法(BDMSR):该算法利用二进制可辨矩阵的属性重要度作为属性选择标准,以在获取核属性的基础上,通过逐个增加属性构成决策表的最小约简。该算法也使得属性约简和属性值约简得以一致计算。 此外,我们设计了基于BDMSR算法和基于二进制可辨矩阵的属性约简算法(BDMR)的原型系统,在此统一的平台上,我们通过对UCI提供的多个标准测试数据集进行测试,对两种算法的性能进行比较。实验证明,BDMSR算法确实优于BDMR算法。
其他文献
无线数传电台作为一种通讯媒介,与光纤、微波、明线一样,有一定的适用范围。它提供某些特殊条件下专网中监控信号的实时、可靠的数据传输,具有成本低、安装维护方便、绕射能力强
Ad Hoc网络作为一种正在迅速崛起的无线通信技术,其应用前景十分广阔,将在未来网络应用中占据举足轻重的地位。路由协议作为Ad Hoc网络研究的关键技术之一,其性能的优劣关系
近年来,网络视频监控技术发展迅速并在许多领域得到推广和应用。但在智能建筑领域,作为其重要组成部分的视频监控系统却仍在采用模拟视频监控系统,网络视频监控系统应用很少
数据挖掘技术从上个世纪产生以来,已经被应用于多个领域,并得到了充分的验证,显示了其重要的经济和社会价值。  近年来我国高等院校招生规模逐渐扩大,毕业生人数剧增,就业问题不
随着虚拟现实技术和可视化技术的实用化,虚拟场景中需要建造大量逼真、复杂的三维模型,因而该三维场景的规模也就很大。用传统的方法建造大型场景、组织和存储大型场景的三维模
随着计算机技术应用的普及,电子政务、办公自动化等概念逐渐成为了我国政府工作中新的热点之一。在这些信息管理系统中,完成的查询功能一般是基于关键字的查找。但关键字查找在
分布式拒绝服务(DDoS)攻击是近年来常见的一种规模大,破坏性强,防御困难的攻击手段。传统的DDoS主要利用了TCP/IP协议自身的漏洞进行攻击。现今,IPv6代替IPv4成为新一代的网络层
Java虚拟机是影响Java程序设计语言的有效实现和关键软件系统之一。由于其运行过程比较封闭和抽象,极大地影响了Java程序的调试效率和成本,使得Java程序员不能直观地动态观察
随着计算机及网络技术的发展,数据库系统由小型化向大型化发展,由集中式向分布式发展。由于地理位置分布的原因、考虑到数据安全和数据分布的需求,很多业务系统形成了具有站
现有的故障诊断理论和技术正面临着复杂过程的复杂性带来的严峻挑战,研究复杂过程的故障诊断技术,对于保证大型流程工业生产的安全稳定运行,从而切实提高企业的经济效益具有重要