基于Hadoop的改进的并行Fp-Growth算法

被引量 : 0次 | 上传用户:lingqiuyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是数据挖掘领域的重要算法。频繁模式挖掘在事务数据库、时间序列数据库和许多其他类型数据库的挖掘研究中都得到了广泛的应用。然而,传统的Frequent-pattern Growth算法(简称Fp-Growth算法)在处理大规模数据时,无论是存储上还是计算上都会遇到瓶颈,这就需要对Fp-Growth算法进行并行化处理。现有的并行Fp-Growth算法已经解决了如何划分数据库事务集这一问题,并保证了划分后的事务集彼此之间相互独立,但是现有的并行Fp-Growth算法和对事务集进行划分的时候缺乏了对负载均衡的考虑。因此,实现负载均衡的并行Fp-Growth算法是本文的主要问题。Hadoop是Apache基金会下的一个开源的分布式并行编程框架,允许计算机集群通过使用简单的编程模型分布式的处理大型数据集。Hadoop解决了并行计算存在的工作调度、分布式存储、容错处理、网络通讯等问题,这就使得开发者只需要关注算法本身,而系统本身的调度等问题都交由Hadoop处理。基于上述原因,所以本文使用Hadoop框架来实现并行化的Fp-Growth算法。本文主要完成了以下两个工作,一个是对现有的并行Fp-Growth算法提出了改进,另一个是将本文提出的并行算法应用于频繁用户访问序列的挖掘上。首先,本文在国内外的并行Fp-Growth算法的研究基础之上,利用估算每一个频繁项的负载的方法,对现有的并行Fp-Growth算法的分组策略进行了改进。实验证明本文提出的改进的并行Fp-Growth算法优于现有的并行Fp-Growth算法,本文提出的算法具有更好的负载均衡能力和执行效率。其次,由于Web服务器日志上存储了海量的用户访问信息,因此,可以从海量的数据中发现那些隐藏起来的、有价值的用户行为信息。所以,本文将提出的算法应用于Web日志挖掘这一领域,用来挖掘频繁的用户访问序列。基于这一应用方向所得到的结果可以对日志的来源网站提供指导和参考意见,具有实际的应用价值和商业价值。
其他文献
社会的发展,科学技术的进步,代表过去走向现代发展的钢筋混凝土等材料已经不能够满足人们的需求。快节奏的生活让人们越发的渴望与自然接触去寻找内心的平和。本次设计选取叶
20世纪90年代以来,伴随着我国政府机构对内部控制的重视逐渐加深,国内学术界对内部控制的研究也不断深入。不断完善企业内部控制制度以规范企业行为,防范并控制各种风险,对于
改革开放以来,中国的综合国力快速发展,社会生产力得到巨大解放,人们的生活水平显著提高。但是,经济改革又给人们带来了诸多困惑和诸多社会问题,其中最突出的社会问题就是社
当今社会是一个以知识和经济为时代背景的社会。随着信息技术的发展和全球化进程的加剧,企业之间的竞争日趋激烈。员工作为企业的核心,越来越受到社会和企业管理层的重视。作
在间隔不到5个月的时间里,波音737 MAX机型相继发生了狮航JT610和埃航302两起重大空难,共造成346人罹难,引发了全球范围内对波音737 MAX机型安全性与美国联邦航空管理局(FAA)
心理危机,是指当个体遭遇重大问题或变化使个体感到难以解决、难以把握时,内心的紧张不断积聚,继而出现无所适从甚至思维和行为发生紊乱的状态。2008年5月12日,四川汶川发生了8.0
伴随着城市化进程的迅速推进,工业用地以及城镇建设用地需求的增加,农村土地被大量征用。对农民来说,土地不仅仅是生产资料,还承载着就业和社会保障的功能,是农民养老的基础
《欲望号街车》是美国著名剧作家田纳西·威廉斯早期的经典之作,剧中主要人物布兰奇·杜波依斯和斯坦利·柯瓦尔斯基一直备受国内外学者广泛而持续的关注。本文独辟蹊径,从认知
背景目前越来越多的基础及临床研究证实,长期低剂量大环内酯类药物可以有效的减少气道慢性炎症反应,对于慢性阻塞性肺疾病患者,可以有效减少其急性加重的频率,延缓患者肺功能
人口老龄化是21世纪人类面临的巨大挑战之一。而作为基础变量因素的人口问题则严重影响着社会经济发展,21世纪中国将面临严重的人口老龄化问题,我国经济发展面临着极为严峻的