论文部分内容阅读
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题。 在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题,目前,关联规则挖掘在商业等领域得到了成功应用,使它成为了数据挖掘中最成熟、最重要、最活跃的研究内容。关联规则侧重于确定数据中不同领域之间的联系,即寻找给定数据集中的有趣联系。通过描述数据库中数据项之间所存在的潜在关系的规则,找出满足给定支持度和置信度阀值的多个域之间的依赖关系。 R.Agrawal等人提出的Apriori算法是最著名的、最有影响的关联规则挖掘算法,它按项目集从小到大的顺序寻找频繁项集。其核心技术为其它各类布尔关联规则挖掘算法所广泛采用。Apriori算法已被广泛用于商业决策、银行贷款、金融保险等领域。 但在实践中,人们也发现该方法是在挖掘长频繁项(如100个项目)时,会遇到非常耗时的巨大计算问题。并相继提出了一些优化算法,如基于划分的方法、基于Hash的方法、基于采样的方法,目的在于减少候选集生成的规模和数量,提高算法的使用效率。 自顶向下挖掘算法(Top_Down),利用事务项目关联信息表、关键项目、项目约简、投影数据库等新概念和投影、约简等新方法,在候选集生成过程中及时修剪重复分支,使算法的实际效率大为提高,较好的解决了长频繁项的挖掘问题,通过计算机实验和算法分析,证明了这种方法的有效性和完备性。但在实验中,我们也发现,在支持度较大,频繁项长度较短时却是利用Apriori方法的有利时机。 本文提出了一种结合自顶向下和自底向上的双向挖掘算法,把Top_Down算法和Apriori算法结合起来使用。主挖掘方向是自顶向下挖掘策略,同时利用自底向上方法生成的非频集来及时修剪候选集,减少候选集生成的规模和数量,有效的提高了算法的实际效率,较好的解决了长、短频繁项的挖掘问题。