论文部分内容阅读
频繁模式挖掘是数据挖掘领域的一个重要的研究问题,随着大数据时代的到来,数据库规模急剧增长。面对大数据时,现有的频繁模式挖掘算法往往会存在效率低下、空间伸缩性差等问题。解决这些问题的一个有效方法便是实现挖掘算法的并行化。云计算的提出为大数据的存储、计算和分析等问题提供了很好的解决思路,Hadoop作为云计算模式下的一个功能完善且高效的开源分布式系统架构已被广泛应用。本文在云计算环境下运用Hadoop平台对频繁模式挖掘算法进行研究,提出两个基于Hadoop的频繁模式挖掘算法MRdFIN和HFPM。MRdFIN算法是基于单机算法dFIN的并行化实现,采用深度优先搜索策略,同时设计了一种基于贪心思想的均衡分组策略有效地实现了整个集群的负载均衡。在各个独立节点上进行深度挖掘时,采用集合枚举树的搜索方式并结合项集间的闭合属性和父子等价的剪枝策略可有效地缩小搜索空间,提高算法效率。针对目前单一搜索策略的局限性,在MRdFIN的基础上,提出了一种基于混合挖掘策略的并行挖掘频繁模式的算法,HFPM。利用PamPh算法的混合搜索策略实现宽度搜索挖掘和深度搜索挖掘的相互转换和并行执行,充分发挥宽度优先搜索和深度优先搜索的优点。同时应用PEclat算法的混合垂直数据格式mixset,伺机选择垂直数据格式tidset和diffset来表示数据格式,有效地压缩存储空间。在此基础上,提出了一种基于有序搜索树的快速剪枝策略,对混合挖掘过程中不同阶段的宽度挖掘采用不同的剪枝技术,提高剪枝效率。提出了一种基于快速失败机制的交叉计数优化策略,提高了混合垂直数据格式的交叉运算效率。最终通过实验结果表明,MRdFIN和HFPM比已有的并行化频繁模式挖掘算法具有更高的效率和空间伸缩性。MRdFIN与HFPM相比较,其更注重于执行速度,而HFPM更适合于大规模的数据库挖掘任务。