论文部分内容阅读
数据挖掘的诞生和发展是建立在数据库技术、人工智能和机器学习等多种学科发展的基础之上的,数据挖掘就是从数据库中积累的大量数据中自动发现隐含的、新颖的、对管理决策具有潜在价值的知识,它是目前数据库研究的前沿领域。自从数据挖掘概念诞生以来,国内外已对其进行了广泛的研究,但是目前已知的各种数据挖掘方法都对数据质量有较高的要求,不能有效的处理数据库中信息不完备的问题。针对这个问题,本文在研究信息系统Roush集模型的基础上,研究了具有上述特征数据中的知识发现方法。 首先,本文对Rough集理论进行深入的探讨和研究,指出信息系统Rough集模型的下近似集包含数据实体属于概念的充分条件信息,对其进行概括即可挖掘出概念的区分规则。 其次,本文研究了基于信息系统的Rough集模型挖掘概念区分规则的方法。首先在研究概念爬升方法和Rough集理论中属性隶属度原理的基础上提出了一个划分属性值区间的算法,该算法能够有效的解决最小支持度问题和最小信任度问题。进而为了从已离散化的数据中概括出潜在的规则,研究了生成侯选集的交运算方法和排除冗余等价类的删除方法,然后利用循环推进机制实现对数据的概括。最后利用数值属性临近区间可合并的性质,提出一个对已发现规则进行约简的算法。 最后,研究并实现了一个基于Rough集模型的数据挖掘系统。该系统能够面向用户提出的各种问题,随时定义数据挖掘的任务,从数据库中有效的挖掘出概念的区分规则。