论文部分内容阅读
随着数据库技术的广泛应用,数据库中存储的数据量急剧增大。对如此庞大的数据需要进行较高层次的处理,从中找出规律和模式,以帮助人们更好地利用这些数据进行决策和研究,因而提出了知识发现和数据挖掘的概念。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是从数据库的大量数据中提取隐含的、未知的并有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,也是知识发现技术难点,是目前相当活跃的研究领域。粗糙集理论是波兰数学家Pawlak提出的一种分析模糊和不确定知识的强有力的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,这个特点使得粗糙集理论非常适用于数据挖掘。人们在思考和解决问题时,往往根据需要,或者是先整体后部分;或者是先部分后整体;或者是交替使用以上两种方法。人们不仅能在不同粒度的世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度的世界,往返自如,毫无困难。因此将粒度的概念引入到数据挖掘中去有着非常重要的意义。本文主要研究将粒度思想应用于数据挖掘过程中,从粒度的概念和角度进行属性约简和规则提取,用于从大型数据库中挖掘出有用和用户感兴趣的知识,解决信息系统数据多而知识少的问题。本文综述了数据挖掘和粗糙集的相关理论及国内外研究现状,探讨了粒度计算的研究领域和数据挖掘技术热点以及两者未来发展趋势。深入研究了粗糙集理论的约简算法,约简算法包括属性约简和属性值约简。在目前属性约简算法的基础上提出了一种基于条件信息熵的属性约简改进算法,同时将粒度思想应用到规则提取中,在前人所作研究的基础上提出了基于搜索粒度,自顶向下,建立多层次粒度模型的规则提取算法。针对传统的基于粗糙集理论的数据挖掘模型存在不实用的特点,提出了一种改进的数据挖掘模型。该模型包括数据预处理、属性约简和规则提取三个模块,并利用算例验证该模型的可行性。