论文部分内容阅读
随着计算机应用范围、领域等的日益扩大,特别是Internet的飞速发展,在各种应用系统和Internet上积聚了大量、甚至海量数据,产生了"数据爆炸、知识贫乏"的现象;数据挖掘是解决这种问题的最为有效的手段,它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段。其中关联规则挖掘是一种主要的,也是用途最广的数据挖掘方法。关联规则概念最早是由在IBM工作的Rakesh Agrawal博士等于1993年提出的,用于刻划事务数据库中各交易项目之间的关系,即频繁关系,其研究已有10余年时间,取得了很多成果,但还有很多问题亟待解决。本论文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了深入研究,取得了一定的研究成果。作者把关联规则挖掘分为五个阶段,提出了MMAR模型,该模型是对Agrawal两阶段模型的改进与完善,更符合现有的实际,且对未来关联规则挖掘研究也更具指导意义。在该模型中,作者第一次明确提出了把现有的关联规则看成是关联关系及其关联关系表达的统一体,这种分离有助于对关联规则知识的理解,也明确指明关联关系及其表达同关联规则挖掘算法等一样是关联规则挖掘中的一个重要不可缺的方面。在关联关系研究中,作者提出了扩展型关联关系以及扩展型关联规则。扩展型关联规则涵盖了Rakesh Agrawal提出的基本型关联规则,从语义上看,后者只是前者的一种特殊形式,扩展型关联规则既具有理论意义又有实际应用价值。扩展型关联规则既包含肯定频繁关系又包含否定频繁关系,而基本型关联规则仅包含肯定频繁关系;此外,作者还推导了扩展型关联规则支持度计算的若干定理,并利用这些定理建立了一个有效的扩展型关联规则挖掘算法。通常,挖掘产生的关联规则都存在数量过大的问题,现有的办法是通过兴趣度、带约束的关联规则挖掘来解决该问题,但效果甚差,为此作者提出了原关联规则。原关联规则具有很强的规则约简能力和生成能力,利用其规则约简能力,在挖掘时可以极大减少关联规则的数量;利用其规则生成能力,在产生原关联规则后,可以得到其它的关联规则,从而不会产生信息知识的丢失;原关联规则可以几倍甚至几十倍地减少关联规则数量。此外,作者针对原关联规则生成,提出了一个有效的两步生成算法,即先从频繁项生成源关联规则(Source Association<WP=5>Rules),再从源关联规则生成原关联规则(Atom Association Rules)。关联规则频繁项的挖掘是关联规则挖掘的中重要研究内容,目前绝大多数的研究都集中在如何提高频繁项挖掘的效率上。现有研究主要从提高串行算法的效率、利用并行和分布式挖掘算法、增量挖掘算法等来提高关联规则挖掘效率,为进一步提高效率,还提出了挖掘部分或特殊关联规则,如提出挖掘极大频繁项、挖掘闭集频繁项的挖掘算法。作者对此进行了深入研究,发现关联规则串行算法是提高关联规则挖掘效率的基础,并行算法和增量算法都是基于某种串行算法的。在对树-投影挖掘串行算法进行的研究中,作者发现了该算法存在冗余投影这一现象,并提出了水平优化策略、垂直优化策略解决方案,论证了这两种优化策略的关系,从理论上详细论证了其优点。实验表明,采用水平优化策略的算法与不采用优化策略的算法相比,算法性能有了很大提高,执行时间能成倍降低,存储空间也极大减少;而且这种两种优化策略是和数据结构无关的,因此它们既可用于现有各种基于树-投影的关联规则挖掘算法的优化,又可用于指导未来的树-投影关联规则挖掘算法的设计;此外,针对关系数据库中多维关联规则的挖掘,作者还提出了一个结合投影树、广度优先搜索、兄弟交集投影、Apriori优化、水平优化、属性项目优化、数据垂直组织等多种优化方法的关联规则挖掘算法,克服了现有挖掘方法的某些不足。本文最后对研究工作进行了总结,提出了今后进一步的研究方向