论文部分内容阅读
为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应HBase文件存储系统对海量数据分布式存储以及MapReduce框架进行分布式计算,实现Apriori经典数据挖掘算法.通对已实现的Apnon算法进行优化,引入FIS-IS算法思想,从数据库扫描次数和容量消减方向进行改进.提出针对数据身进行频繁预选项生成方法与对于频繁预选项剪枝步骤进行分组检索的优化方法.实验结果验证了改进算法对算法运行有良好的优化效果.