论文部分内容阅读
随着计算机技术的不断发展,人们在信息时代面临着越来越多的数据,如何发现隐藏在众多数据中的内部信息成为人们研究的热点问题。传统的数据库管理系统已经不能满足人们从数据库中抽取隐藏信息的需要,因此提出了知识发现和数据挖掘的概念。知识发现是从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的非平凡过程。数据挖掘是从数据库的大量数据中提取隐含的、未知的并有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,也是知识发现技术难点,是目前相当活跃的研究领域。Rough Set理论是波兰科学家Z.Pawlak在1982年提出的一种处理含糊和不精确性问题的新型数学工具。同时,它作为数据挖掘的一种分类方法,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。在Rough Set理论研究工作中,数据约简是其核心内容之一,所以研究准确,高效的约简算法具有极大的理论价值和现实意义。论文从Rough Set理论的代数观和信息观两个角度出发,分别阐述了RoughSet理论的基本概念和重要定理,总结了两种观点之间的关系。根据Rough Set理论代数观和信息观的基本内容介绍了基于这两种观点的Rough Set属性约简算法并配以算例分析进行说明。并在此基础上提出了一种基于扩展的区分矩阵的属性约简算法和一种基于正区域动态计算的属性约简算法,给出了这两种算法的理论证明、算例分析、实验结果,为接下来获得更加高效的属性约简算法做出有益的尝试。文章最后,介绍了一种改进的属性值约简算法。