基于Hadoop的关联规则挖掘算法分析

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:gdgmxmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展和互联网领域的革新,大数据研究已经成为热点问题。关联规则在寻找数据的关联性起到了非常重要的作用,是数据挖掘中的一种重要研究方法。其核心问题是如何获取频繁集并据此找出不同项目的相关关系。Hadoop作为云计算最为核心的分布式计算框架,集高效性,可扩展性,低成本等优点于一身,已经成为大数据最佳计算模式之一。本文以经典关联规则算法Apriori和Fp-Growth为基础,在分析其Hadoop并行化运行优缺点的基础上,提出了Apriori的Hadoop并行化的改进算法。同时,将Fp-Growth的Hadoop并行化算法应用于搜索引擎。本文的主要研究内容如下:(1)对于Apriori算法在事务压缩、减少扫描次数、简化候选集生成方面进行改进。提出了以元素“0”和“1”表示事务的布尔矩阵模型,引入权值维度,压缩了相同事务的矩阵规模。动态地进行剪枝,以矩阵的“与”运算作为候选集合生成的计算方法。将改进算法结合Hadoop框架进行并行化实现,实验表明该算法适合大规模数据挖掘,具有良好的伸缩性与有效性。(2)基于FP-Growth的Hadoop并行化算法和搜索引擎的原理,对用户行为进行分析,设计出了改进后算法在搜索引擎的应用场景,实现了Fp-Growth的Hadoop并行算法对搜狗实验室的web分析日志的挖掘。实验表明满足支持度的查询词和点击链接频繁集在日志中普遍存在,并且随着Hadoop节点数的增加,算法性能将得到大幅提高。
其他文献
随着计算机科学的迅速发展,图论随之也得到了飞速发展,而近几十年来图的控制数理论成为图论中发展最快的领域之一。控制数理论能够快速发展的主要原因是它在组合优化、编码理论
计算机的应用推广虽然大幅度的提升了工作效率,但很多软件的运行常常都需要在网络连接环境下进行,而网络上存在的大量病毒与木马,严重威胁着计算机网络的应用安全,也对用户的正常
对于函数迭代系统{Φi}Ni=1(IFS)(其中Φi(x)=A-1(x+di),(1≤i≤N),A为Mn(R)中的扩充矩阵).由[4]知存在唯一的非空紧集T(A,D)满足集值函数方程T=UNi=1Φi(T),称之为自仿集.对于任意
本文结合笔者多年的教学经验,就信息技术与其他课程的有效结合渗透问题进行了简要分析,供大家借鉴、参考。 This article combines my years of teaching experience, on th
针对近几年煤矿井下使用的具有低压漏电保护功能的馈电开关所存在的问题,进行了详细论述并根据有关安全理论指出问题所在,提出了解决方案和建议。 In view of the problems
稳定性问题是脉冲泛函微分方程理论研究中的一个基本而又重要的研究课题,本文研究脉冲无限时滞微分方程零解的稳定性问题.利用Lyapunov泛函法和Razumikhin技巧证明了脉冲无限
微分方程边值问题来源于应用数学和应用物理的多个分支,这类课题引起了广大学者的关注,本文第1章对这类问题的现状进行了简要的概述.   第2章研究了高阶(k,n—k)多点边值问题
一般地,关于长圈的研究沿着两个方向发展.其一是大次和条件,其中最为典型的是Fan-条件,主要研究稠密图中的圈性质.从本质上讲,大次和条件现在已处于一个技术上的“停顿”期,
经济参考报2011-4-26报道:商务部网站25日消息,美商务部于4月21日对中国输美造纸用荧光增白剂启动反倾销调查。该产品英文名称为Stilbenic Optical Brightening Agents。 Ec
非线性数学是非线性科学的一部分,亦为非线性科学的基础,是现代数学研究的主攻方向之一。本文研究内容属于非线性数学范畴,同时与物理、化学、生态学、通过数学模型有一定的