论文部分内容阅读
随着大规模数据库的广泛使用和Internet的迅猛扩展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有利用价值的信息,即数据挖掘(Data Mining, DM),成为当前知识发现的主要研究课题之一。波兰数学家Pawlak提出的粗糙集理论是一种处理模糊、不确定知识的数学工具。知识约简是粗糙集理论研究中的重要内容之一。通过约简以减少结构化数据的维数,获得数据集合的不同简洁程度表示已成为数据挖掘的重要任务之一。在现实生活中,由于数据的不确定甚至缺损现象的普遍存在,使得数据库使用者面临的信息系统绝大多数都是不完备的。同时,经典粗糙集理论缺乏对不完备信息的处理。因此,研究如何从不完备信息系统中获取知识的粗糙集方法在理论和实际应用中有着极为重要的意义。本文基于粗糙集理论对不完备信息系统的知识发现进行了研究,具体内容如下: 第一,综述和分析数据挖掘和粗糙集理论的研究现状。 第二,在相容关系的基础上,将分布约简、最大分布约简和分配约简引入不完备信息系统,同时定义了一种新的约简——分配序约简。在此基础上,提出了基于矩阵的分配约简、最大分布约简和分配序约简启发式算法,并分析了这些算法的时间复杂度。 第三,通过实验数据验证所提出的约简算法,得到不完备信息系统相对应的约简结果。 第四,将算法应用于实际,设计和开发一个基于粗糙集理论的不完备信息的知识获取实验系统,通过知识约简来获取规则,部分实现该实验系统的功能。