论文部分内容阅读
数据挖掘(Data Mining,简称DM)也叫数据库中的知识发现(Knowledge Discovery in Databases,简称KDD),是指从大型的数据库中发现潜在的、新颖的、有价值的、可用的、能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要的研究领域,主要是发现数据库中属性之间的关联关系。本文在广泛查阅国内外文献的基础上,针对关联规则挖掘算法的若干问题进行了深入地研究和分析,论文取得的主要成果和创新点如下:针对目前关联规则挖掘研究缺乏理论基础的问题,将数学中的格论和形式概念分析等理论引入关联规则挖掘研究中,有效地描述了关联规则挖掘的问题空间,并提出了基于形式概念分析理论的关联规则挖掘的一系列定义和性质。针对传统的频繁项集挖掘方法中存在的生成大量候选集、多次遍历数据库计算项集支持度等问题,本文以图论为基础提出了基于有向项集图的频繁项集挖掘算法。算法将原始数据库中的信息保存在有向项集图中,将数据库中的频繁项集发现问题转化为有向项集图中的搜索问题并保证了问题解的完整性。本文针对数据库中的最大频繁项集挖掘问题进行了分析和研究,本文提出了基于有向项集图的最大频繁项集挖掘算法。算法利用深度优先的搜索方法,通过计算候选项集的频繁扩展集可以有效地约减问题的搜索空间,提高了算法的效率。本文针对数据库中的频繁闭项集挖掘问题进行了分析和研究,提出了基于有向项集图的频繁闭项集挖掘算法。算法利用深度优先的搜索方法,利用频繁闭种子集的性质对搜索空间进行剪枝,可以有效地生成所有的频繁闭项集。针对现实数据库中数据不断更新的问题,本文研究了在最小支持度不变的情况下新增数据集后如何发现更新后的数据集中的频繁项集问题。提出了基于有向项集图的完全频繁项集增量更新挖掘算法、最大频繁项集增量更新挖掘算法和频繁闭项集增量更新挖掘算法。本文提出和设计的算法针对大规模稠密数据集进行了测试,证明了算法的有效性,并对电力生产的相关数据进行了应用尝试。