论文部分内容阅读
关联规则挖掘过程中频繁项集(Frequent Itemset,FI)的求解是关联规则挖掘的基础和前提,也是关联规则挖掘中最耗时的一步。降低候选项集的数量是减小开销的最好手段。由于最大频繁项集(Maximal Frequent Itemset, MFI)中已经隐含了所有频繁项集,所以可把发现频繁项集的问题转化为发现最大频繁项集的问题。挖掘最大频繁项集可有效地缩小项集的规模,便于用户迅速发现稠密数据集中的知识。然而,随着数据收集和数据存储技术的快速进步,使得各组织机构积累了海量的数据,造成现有的最大频繁项集挖掘算法挖掘效率低下,主要表现为:多次扫描数据库需要大量I/O开销;候选集规模过大导致无法计算和存储;增量挖掘困难;大量冗余的和用户不感兴趣的规则等等。为了解决上述问题,论文将具有完备特性的iceberg概念格模型引入到最大频繁项集挖掘的研究中。iceberg概念格是在用户指定的支持度阈值的条件下概念格中所有频繁概念构成的半序格结构,每个频繁概念的内涵都是一个频繁闭项集,描述了数据集中对象和属性之间的关系。利用频繁闭项集与最大频繁项集之间的隶属关系和频繁概念之间良好的泛化和特化关系,提出了基于iceberg概念格的最大频繁项集和属性增长的最大频繁项集增量挖掘算法。论文还对基于iceberg概念格的正相关的无冗余关联规则进行研究,解决了从最大频繁项集中挖掘的关联规则会导致支持度信息的损失和存在大量冗余的用户不感兴趣的规则的问题。论文的主要工作如下:(1)提出基于iceberg概念格的最大频繁项集挖掘算法ICMFIA(Iceberg Concept Lattice Maxmal Frequent Itemset Alogithm)。该算法通过一次扫描数据集构建iceberg概念格,利用iceberg概念格中频繁概念之间良好的覆盖关系,能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。理论证明和实验测试结果表明,所提算法与现有算法相比,具有扫描数据集次数少和挖掘效率高的优点。(2)提出基于iceberg概念格的最大频繁项集增量挖掘算法MAI-AI(Maximal Frequent Itemset-Attribute Incremental)。该算法主要针对数据集的属性增加后最大频繁项集挖掘问题。在原始iceberg概念格的基础上构建新的iceberg概念格并计算新增的最大频繁概念和需要更新的最大频繁概念。然后只需挖掘新增的最大频繁项集和最大频繁项集集合中需要更新的最大频繁项集。避免了数据集中属性增加后需要重新挖掘所有的最大频繁项集问题。实验结果表明,算法具有重复工作少和重用率高的优点。(3)提出了在iceberg概念格中挖掘正相关的无冗余关联规则的方法,以解决最大频繁项集挖掘出的关联规则支持度信息的损失和存在大量用户不感兴趣的规则等问题。通过提出无冗余关联规则来缩小挖掘规则的规模,其它有效的关联规则的支持度和置信度都能通过无冗余关联规则计算出来。由于使用支持度一置信度框架计算的强关联规则不一定是有趣的,论文引入提升度来挖掘正相关无冗余关联规则,挖掘用户真正感兴趣的规则。