论文部分内容阅读
针对传统的频繁模式增长算法(FP—Growth)在工作过程中会产生大量的条件FP—tree,存在时间和空间复杂度的问题,提出了一种基于Hadoop的改进的FP—Growth算法IFPH。IFPH通过Hadoop实现了并行化计算,并且在构建频繁模式树的过程中引入剪枝策略,压缩频繁模式树的规模,减少数据的处理量,采用不同规模的数据和计算节点数评估算法的性能。实验结果表明,IFPH算法的处理效率随着数据规模和计算节点数的增加而提高,具有很好的可行性和扩展性。