论文部分内容阅读
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。虽然频繁闭项集挖掘算法在一定程度上避免了频繁项集挖掘算法生成频繁项集规模过于庞大的问题,但是处理的数据集更稠密或最小支持度进一步调低的时候,这类算法的性能下降也非常快;而且稠密数据集中新颖的有价值的信息往往隐藏在长模式中,最大频繁项集是指那些在所有的频繁项集中不存在超集的频繁项集;由于最大频繁项集的个数远远小于频繁闭项集,更远远小于完全频繁项集,所以挖掘最大频繁项集可以有效缩小问题的求解规模,对用户迅速发现和理解稠密数据集中的长频繁模式具有重要的意义。最大频繁项集的挖掘仍然是一个搜索问题,剪枝优化技术是提高最大频繁项集挖掘效率的一个重要手段;论文从数据的组织结构,搜索空间,剪枝策略等角度对最大频繁项集的挖掘问题进行了深入的分析和研究,在分析现有最大频繁项集挖掘算法的基础上,发现已挖掘得到的最大频繁项集可运用于对未搜索空间进行剪枝,提出了MPDR算法,在已挖掘得到最大频繁项集中,选取一个对当前结点尾项集最具剪枝能力的作为关键模式,对尾项集实施重排序,使得当前结点的子树空间被分成两部分:潜在最大频繁项集子空间和非潜在最大频繁项集子空间;由于非潜在最大频繁项集子空间肯定不可能再出现最大频繁项集,直接被剪枝;只访问潜在最大频繁项集子空间;由此缩减对搜索空间的访问,提高最大频繁项集的挖掘效率。FP-tree结构具有特有优越性,本文算法也采用了FP-tree结构,在相同的测试数据条件下与FPMax算法和GenMax算法作测试比较,测试结果显示本文算法具有一定的优越性。