论文部分内容阅读
针对Apriori算法需要多次扫描数据库、产生庞大的候选项集和计算时间过长等问题,提出一种基于Hadoop平台的DG-Apriori算法。该算法改进了频繁项集的连接方式,只需用频繁(k-1)-项集与频繁1-项集连接即可生成频繁融项集,极大地减少了连接次数,避免了产生庞大的候选项集,并且将改进后的Apriori算法以并行处理方式移植到Hadoop平台,并行地计算频繁项集,减少了计算时间。实验结果表明,DG-Apriori算法大大提高了Apriori算法的性能。