论文部分内容阅读
关联规则是互联网数据挖掘极其热门的研究方向。由于运用关联规则挖掘算法可以发现商品之间的潜在关联,推荐给用户之后,可以到达提高销量以及提升用户体验的良好效果。本文主要研究关联规则算法在网站推荐方面的应用,通过提出并构建了一个基于分块思想的推荐模型,应用于在线旅游网站,致力达到向在线旅游网站用户推荐优质的旅行目的地团购商品的目标。本文研究的主要内容和成果:(1)概述了数据挖掘以及关联规则挖掘算法的相关技术,并对比了Apriori算法与FP-tree算法在挖掘方面的优缺点,发现FP-tree算法虽然在算法效率上优于Apriori算法,但是其树结构极其占用内存,面对海量数据时有可能导致算法无法执行完成。(2)为了克服经典Apriori算法挖掘极其耗费时间的弊端,本文在介绍了Apriori算法并行化处理的技术基础上,给出了基于MapReduce的Apriori并行算法。并行化的Apriori算法通过分割处理的方式,既保障了其最终挖掘结果的一致性,还在时间上和空间上均节约了开销。(3)基于在线旅游网站的推荐背景应用下,本文提出了一个在线旅游网站的关联规则推荐模型。该模型结合实际情况,利用商圈标签作为分割,将庞大的事务数据很好地划分为多个数据块,并对其进行基于MapReduce的Apriori并行算法。挖掘产生的关联规则保存于关联规则库,当触发推荐事件时,直接从关联规则库中取出,此方法规避了每次都挖掘所产生的服务器开销,同时还提升了用户体验。(4)本文通过搭建基于Hadoop的仿真平台进行了实验。通过对样本数据的挖掘,印证了并行化的Apriori算法在面对海量数据时相较于串行的Apriori的算法在时间上有更好的效率。当面对的数据量增大时,其挖掘时间也随之趋于线性增长。且分布式情况下,随着处理节点增多,挖掘效率显著提升,体现了并行算法在海量数据挖掘时的优越性和扩展性。