论文部分内容阅读
互联网时代“数据爆炸,信息贫乏”现象的出现对数据的挖掘分析提出了新的要求,数据挖掘的目的就是把隐藏在大批看似杂乱无章的数据背后的信息采集和提炼出来,总结出所研究对象隐藏的内在规律。频繁项集的提取作为关联规则挖掘中的最基本和关键的一步,近年来一直是数据挖掘的研究热点。本文针对经典的关联规则挖掘算法中候选项集产生-检验类算法和模式增长类算法存在的问题,提出了压缩频繁模式树的改进搜索算法(modified algorithm for compressed FP-tree,简称MCFP-tree)。MCFP-tree算法引入了更紧凑的压缩频繁模式树结构,结合了Apriori算法的候选项集产生机制,在该机制的基础上又提出了新的候选频繁项集检验方法,达到了提高算法挖掘效率的目的。通过在数据集上的测试,验证MCFP-tree算法可以支持数据库中较短维度频繁项集的高效搜索。对基于压缩频繁模式树的CT-PRO算法和MCFP-tree算法进行性能对比分析,提出了基于压缩FP-tree树形结构的复杂度的评价准则。树形结构复杂度的提出是考虑到相同的频繁项集挖掘算法对不同的压缩FP-tree进行挖掘时算法的性能差异很明显。按照本文对压缩FP-tree树形结构复杂度判据的定义,可以将压缩FP-tree分为简单树形结构、较复杂树形结构和复杂树形结构。在提出的复杂度判据的基础上,本文又提出了一种基于压缩FP-tree复杂度的改进搜索算法,对简单结构、较复杂结构和复杂结构的压缩FP-tree分别选用MCFP-tree算法、CT-PRO算法和挖掘子树的方法来进行频集的快速搜索。实验结果表明,通过对压缩FP-tree不同复杂度的树形结构采用有针对性的挖掘,可以显著提高频繁项集的挖掘效率。