论文部分内容阅读
针对传统的Apriori算法在执行过程中存在着需要扫描多次数据库,执行效率低和需要大量的内存来存储候选项集的缺点,有人已经提出了引入索引结构的Apriori改进算法,但是该算法还是传统的Apriori算法都不适合应用到云计算平台。因此,在本文中我们提出了将引入索引结构的Apriori算法的设计思想应用到Apriori算法MapReduce并行化改进的过程中。该算法的核心思想:将数据进行MapReduce并行化分块,并在每个分块中采用索引的执行模式。该算法结合了索引结构的优点和算法并行化的优点,不仅大大提高了算法的执行速度,而且实现了在云环境下的应用。