论文部分内容阅读
随着信息技术的发展和互联网领域的革新,大数据研究已经成为热点问题。关联规则在寻找数据的关联性起到了非常重要的作用,是数据挖掘中的一种重要研究方法。其核心问题是如何获取频繁集并据此找出不同项目的相关关系。Hadoop作为云计算最为核心的分布式计算框架,集高效性,可扩展性,低成本等优点于一身,已经成为大数据最佳计算模式之一。本文以经典关联规则算法Apriori和Fp-Growth为基础,在分析其Hadoop并行化运行优缺点的基础上,提出了Apriori的Hadoop并行化的改进算法。同时,将Fp-Growth的Hadoop并行化算法应用于搜索引擎。本文的主要研究内容如下:(1)对于Apriori算法在事务压缩、减少扫描次数、简化候选集生成方面进行改进。提出了以元素“0”和“1”表示事务的布尔矩阵模型,引入权值维度,压缩了相同事务的矩阵规模。动态地进行剪枝,以矩阵的“与”运算作为候选集合生成的计算方法。将改进算法结合Hadoop框架进行并行化实现,实验表明该算法适合大规模数据挖掘,具有良好的伸缩性与有效性。(2)基于FP-Growth的Hadoop并行化算法和搜索引擎的原理,对用户行为进行分析,设计出了改进后算法在搜索引擎的应用场景,实现了Fp-Growth的Hadoop并行算法对搜狗实验室的web分析日志的挖掘。实验表明满足支持度的查询词和点击链接频繁集在日志中普遍存在,并且随着Hadoop节点数的增加,算法性能将得到大幅提高。