论文部分内容阅读
数据挖掘(DM)是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。分类是数据挖掘的一个重要分支,粗糙集方法是数据挖掘中的重要分类技术之一。粗糙集理论是一种处理模糊和不精确知识的数学工具,它具有很强的知识获取能力。粗糙集理论在数据挖掘中的应用是一个较新的研究领域。由于粗糙集理论提供了严格的处理数据分类问题的数学方法,不需要任何数据的附加信息,能够搜索数据的最小集合,可以使用定性与定量的数据,并从数据中产生决策规则集合等优点而得到广泛的应用。 对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果,反而会提高系统潜在知识的清晰度。决策表的属性约简就是约简决策表中的条件属性,约简后的决策表具有约简前决策表的功能,但是约简后的决策表具有更少的条件属性。 本文主要对粗糙集理论中的二进制可辨矩阵进行研究,研究了基于二进制可辨矩阵的知识粒度的有关理论和计算公式。利用获得的公式可计算知识的分辨度和粒度,以及属性的重要度。并利用得出的有关理论进行决策表的属性约简和值约简,提出了两种约简算法:一种是基于二进制可辨矩阵的属性及属性值约简算法,该算法只要扫描一次二进制可辨矩阵,就可求得核属性和去除核属性后,所增加的不能被正确分类的对象,从而得出核值。同时将吸收律应用于各析取式,可求得条件属性的约简集,从而得到具有约简属性的核值表。该算法使得属性约简和属性值约简得以一致计算,大大缩短了约简时间。 另一种是基于二进制可辨矩阵的重要度的属性及属性值约简算法(BDMSR):该算法利用二进制可辨矩阵的属性重要度作为属性选择标准,以在获取核属性的基础上,通过逐个增加属性构成决策表的最小约简。该算法也使得属性约简和属性值约简得以一致计算。 此外,我们设计了基于BDMSR算法和基于二进制可辨矩阵的属性约简算法(BDMR)的原型系统,在此统一的平台上,我们通过对UCI提供的多个标准测试数据集进行测试,对两种算法的性能进行比较。实验证明,BDMSR算法确实优于BDMR算法。