论文部分内容阅读
随着数据库规模的日益扩大和数据挖掘技术的繁荣发展,关联规则技术也得到了蓬勃的发展,并正朝更为广泛和深入的方向继续发展。关联规则挖掘算法是关联规则挖掘研究的主要内容。提高关联规则的效率关键是提高关联规则算法的效率。Apriori算法是一种最有影响的挖掘单维布尔型关联规则频繁项集的算法。Apriori算法存在两大瓶颈问题:一是候选项目集的数量,二是事务数据库的扫描次数。同时Apriori算法是单维布尔型的。与经典的关联规则研究相比,目前的主要研究内容已经从单维单层次扩展到多维多层次的挖掘。运用抽象层次的概念,可能会发现新的更为抽象的规则。在实际应用中,应该从不同的角度不同的层面上进行挖掘,这种条件下产生的强关联规则对人们来说更有用。因为现在的数据多是以多维的形式存在,并且存放在关系数据库中。因此本文主要是把单维布尔型关联规则算法Apriori算法扩展到多维多层关系数据挖掘上去。本文在对数据挖掘及关联规则技术深入细致研究的基础上做了以下工作:(1)分析了关联规则的经典算法Apriori算法,包括算法思想、算法的主要步骤及算法伪码,并分析了其存在的问题,列出了一些提高Apriori有效性的方法。(2)在充分消化吸收经典Apriori算法的基础上提出了改进的算法,改进后的算法是适于挖掘多维关系数据的。主要描述了改进后算法的思想、算法的伪码及算法的理论正确性分析。(3)对改进后的算法的性能与Apriori算法的性能进行了比较试验,实验结果证明了改进后的算法在多维度等方面的优越性。在本文的最后,进行了文章总结和进一步工作的展望。