论文部分内容阅读
随着信息科技与数据库技术的不断发展,海量的信息以不同形式被存储起来。为了有效利用这些数据背后隐藏的许多重要的信息,数据挖掘技术逐步发展起来。数据当中的某些属性并不是同等重要的,甚至有些属性是冗余的,这些冗余数据不仅占据了大量的存储空间,更为知识发现及决策带来许多不便。因而,精炼数据库的属性集(属性约简)成为数据挖掘技术的一个重要环节。由于实际应用中往往难以得到精确的划分,因此覆盖信息系统在数据挖掘中的应用越来越广泛。现行的基于覆盖信息系统的属性约简算法大都以保持知识库分类或决策能力不变的前提下,删除其中不相关或不重要的属性,但这些方法均有着较高的时间和空间复杂度,不能对数据库进行有效地约简。因此,对覆盖信息系统的结构特征研究就尤为重要。针对上述问题,本文首先对覆盖的确定办法进行了研究,提出了δ模糊覆盖的概念,通过分析精度对模糊覆盖的影响,得到了一些重要结论;其次,讨论了基于δ邻域的覆盖确定方法;再次,总结了几种常见覆盖信息系统约简方法,并比较分析了它们的特点及不足之处。利用集合之间的交并运算提出了极小化覆盖的概念;进而,为了进一步去除覆盖中的冗余成分,建立了覆盖的网络拓扑,并依此建立了基于网络拓扑的覆盖信息系统的属性约简方法。最后,结合具体实例,证明了这些方法的特征与优势,说明了本文所提出的方法具有一定的实际有效性和合理性,能有效地处理数据库的属性约简问题。