论文部分内容阅读
随着数据库应用的不断深化,数据库的规模急剧膨胀,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,因此充分利用数据进行决策支持成为当今最需要深入研究的领域。数据库的知识获取以及数据挖掘便是数据利用的有力武器。在数据挖掘中关联规则的挖掘获得了广泛的关注,因为其表达式易于理解,很高的可用性,成为各企业,尤其是零售业最为关注和最常用的数据挖掘技术。关联规则是从历史的大规模的数据中获得项集之间的相互关联关系,抽取出有用的和感兴趣的模式,主要任务是发现数据库中的大项集,因为这个任务在大规模数据库基础上是耗时的操作,所以现在的主要研究方向都集中在大项集的有效生成上。 本文首先对KDD/DM的主要概念和最近的发展作了综述,给出了挖掘关联规则问题的正式的描述,然后对典型的关联规则算法Apriori算法和AprioriTid算法作了较深入的性能分析,然后给出了几个典型算法的思想介绍和优缺点分析;提出了关联规则的并行挖掘策略并且对相应的并行算法进行了性能分析。通过深入分析挖掘关联规则的串行算法和并行算法的优缺点,并且在PVM环境下对基于Apriori算法的并行算法进行了实现。本文的目的在能够提供一个灵活和可扩展的计算平台,利用现在相对廉价的单机进行网络计算,充分发挥网络计算的优势。 本文共分六章,第一章为绪论,介绍了本文研究背景,总结了研究工作以及论文的组织结构。 第二章:简单介绍了数据挖掘技术的情况。 第三章:重点介绍了关联规则挖掘的算法思想,用于本文的正式问题描述以及关联规则产生和发展的概况。重点介绍了Apriori算法和AprioriTid算法的思想,实现的代码以及优缺点,然后给出了几个典型算法的思想介绍和优缺点分析,最后讨论了关联规则挖掘中的几个问题。 第四章:给出了本文的核心—关联规则并行开采的策略及算法。首先提出了关联规则的并行开采策略,然后详细描述了并行开采的类型以及基于这些类型上的并行开采关联规则的常用算法,最后介绍了其它的一些并行算法并分析了它们各自的优缺点。 第五章:介绍了一种基于Apriori算法的并行开采算法的思想并在PVM环境下对该算法进行了实现。 第六章:总结本文的工作并指出了进一步研究的方向。