论文部分内容阅读
数据挖掘(Data Mining)已经成为计算机科学界的一大热点,是当前最为活跃的研究领域之一.关联规则(Association Rules)挖掘是数据挖掘中一个非常重要的研究方向.自从Agrawal等人于1993年提出著名的Apriori算法以来,该算法已经成为关联规则挖掘中的经典算法,并得到了广泛的应用.该方法是一种自底向上的有效挖掘方法,但对于长频繁项的挖掘,该方法会遇到非常耗时的巨大计算问题.该文对Apriori算法进行了改进,对生成的每个k频繁项按其对应的支持度分为:等于最小支持度的Lk1、等于最小支持度+1的Lk2和大于支持度+1的Lk3.并对此三组频繁项按照论文中介绍的定理进行修剪.分类处理频繁项集Lk:对Lk1、Lk2分别利用在两个空间上的交替计算来挖掘k+1频繁项;对于Lk3,则按照Apriori算法的思想把其组合成长度为k+1的新频繁项.最后对k+1频繁项再进行上面的步骤,直到新生成的频繁项集为空时,结束循环.由于修剪掉了很多不必要的频繁项,因此使Apriori频繁项挖掘算法减少了很多组合过程,较好地解决了长频繁项的挖掘问题.Apriori算法只是利用了频繁项的计数特征,忽略了结构特征,只能一步一步地计数,不能很快地发现频繁项.在双空间搜索频繁项挖掘算法(Dual Space)中,我们采用了项目空间、事务空间、X→T映射、T→X映射、事务相关集和项目相关集等新概念,充分利用了计数特征和结构特征两种信息,得到了一种很有前途的新的研究思路.实验证明这种思路是完全可行的.我们在Delphi开发环境下利用二进制表示方法实现了Apriori和Dual_Space算法,对两种算法的挖掘过程进行了详细的测试和分析.实验表明Dual Space算法具有线性的时间复杂度.特别是对于挖掘长频繁项,有着远远优于传统方法的效率.我们从理论分析和算法实现两个方面证明了Dual Space算法的有效性和完备性,在关联规则挖掘研究方面作了有益的探索和尝试.