论文部分内容阅读
在数据挖掘中,关联规则是一个重要研究方向,在很多方面已取得了丰硕的成果。关联规则用于在海量数据中发现数据项之间的关联或者相关关系,从而帮助人们作出决策。目前,关联规则广泛用于市场营销、金融市场、互联网、事务分析等领域。
本文主要对关联规则的算法进行了探索性的研究,首先简单阐述了关联规则技术的产生背景和关联规则概念,然后对关联规则常用算法进行了介绍,并对关联规则中Apriori算法和FP-growth算法进行了性能分析,其中Apriori算法具有显著的历史地位,具有简单、易理解数据要求低的特点,但是大量的候选项集和频繁的扫描数据库事务是该算法的两大缺陷。FP-growth算法通过将数据库事务压缩为FP-tree,然后递归挖掘频繁项集,该算法只需两次扫描数据库,并且避免了生成候选项集,但是该算法耗费内存较大。
针对Apriori算法的缺陷,本文提出了FP-Apriori算法,该算法将FP-tree移植到Apriori算法,该算法与Apriori算法一样,利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,来穷尽数据集中的所有频繁项集。候选项集通过访问FP-tree计数进行筛选,同时,针对FP-tree分支较大,通过剪枝技术减少FP-tree的访问量,从而提高了算法效率,最后通过实验验证该算法可行,并给出了两种算法的性能分析。
本文主要对关联规则的算法进行了探索性的研究,首先简单阐述了关联规则技术的产生背景和关联规则概念,然后对关联规则常用算法进行了介绍,并对关联规则中Apriori算法和FP-growth算法进行了性能分析,其中Apriori算法具有显著的历史地位,具有简单、易理解数据要求低的特点,但是大量的候选项集和频繁的扫描数据库事务是该算法的两大缺陷。FP-growth算法通过将数据库事务压缩为FP-tree,然后递归挖掘频繁项集,该算法只需两次扫描数据库,并且避免了生成候选项集,但是该算法耗费内存较大。
针对Apriori算法的缺陷,本文提出了FP-Apriori算法,该算法将FP-tree移植到Apriori算法,该算法与Apriori算法一样,利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,来穷尽数据集中的所有频繁项集。候选项集通过访问FP-tree计数进行筛选,同时,针对FP-tree分支较大,通过剪枝技术减少FP-tree的访问量,从而提高了算法效率,最后通过实验验证该算法可行,并给出了两种算法的性能分析。