基于Spark的并行化FP-Growth算法研究与应用

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:InsideADONET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的单机数据挖掘算法由于硬件资源的限制,在分析海量数据时,挖掘效率并不能令人满意。Spark是基于内存计算的分布式计算引擎,就是为了处理海量数据而生的技术,比Hadoop的MapReduce快很多。将算法基于Spark实现并行化可以有效的提高算法对海量数据的分析效率。  FP-Growth是关联规则领域近几年提出并被广泛应用的算法。FP-Growth算法因为要用内存缓存迭代过程中的FP-Tree结构,在面对海量数据进行挖掘时,FP-Growth会遇到内存瓶颈。为了解决内存瓶颈,本文提出基于Spark将FP-Growth算法实现并行化,并命名为SpaFP(Spark-FP-Growth)算法。通过实验比较,SpaFP算法的挖掘耗时更少,运算速度更快。  因为SpaFP算法在数据分组过程中没有考虑均衡问题,可能会使某个运算节点迭代时间过长,影响整个算法的运算效率;同时传统的FP-Growth算法的项头表结构是一个数组,在迭代构建FP-Tree时匹配查找结点元素的时间复杂度高。为了提高SpaFP算法的运算效率,本文提出对SpaFP结合两方面进行优化:(1)提出一种均衡分组策略,把未分组的负载权值最大的项放在负载权值总和最小的组里面实现均衡分组;(2)提出一种新的FP-Growth的项头表结构,通过在项头表结构中加入一张哈希表达到快速访问元素的地址的目的,从而降低时间复杂度;命名为EHSpaFP(Equal-Head-SpaFP)算法。对挖掘数据规模、集群节点数量、支持度、加速比四个方面比较算法,通过用十万条和百万条数据实验,验证优化方法都有效,EHSpaFP算法具备非常高效的计算效率。  最后本文提出一种将Spark中的主题模型LDA和EHSpaFP算法相结合的文本主题深度挖掘应用,可以挖掘出大量文本中的主题知识,并且能从松散的主题词汇中挖掘出潜在的主题知识关联规则然后进行分析,也是一种海量文本信息知识发现的新思路。对一万多篇有关“一带一路”的新闻报道文本主题深度挖掘,得到海量新闻报道中隐含的主题知识关联规则以及主题知识的描述结果。
其他文献
刚刚从大学校园毕业的我,带着羞涩、紧张与自豪感兴奋地来到孩子们中间.对于我来说,所有孩子都是陌生的,我每天费尽心思地去想如何教、如何管.可时间一天天过去了,我觉得我和
《幼儿园教育指导纲要》明确指出:“幼儿园应该为幼儿提供健康、丰富的生活和活动环境,满足他们多方面发展的需要,使他们在快乐的童年生活中获得有益于身心发展的经验”……
每当站在《清明上河图》前,我总抑制不住心灵的震撼,说不清是亢奋还是惊诧。俨如置身于那个时代的市井之中,与作者进行一次又一次的心灵沟通,试图解读它的博大与精深。宋代著
组织文化作为提高企业竞争力的重要资源,受到了众多管理者和学者的关注,但以往研究更多关注组织文化与财务绩效的影响,而忽视组织文化与企业非财务绩效的影响,组织文化是影响员工
“怀旧”是全世界人民都会拥有的一个情节。科技领域也不例外,一些现代的高科技技术,被装载到复古的外壳中,就像“时间旅行者”令人感到穿越,但是,它们又绝对是房间内不可或
教师的课程意识是教师对整个课程系统的基本认识和反映,是教师对课程意义的敏感性和自觉度.从本质上说,课程意识是一种主体价值张扬的意识,是师生创造力彰显的意识.这就要求,
积极心理学是二十世纪末兴起于美国的一个新的研究领域.2000年Seligman和Csikszentmihalyi在《美国心理学家》杂志发表的《积极心理学导论》,从此揭开了心理学从消极心理学模
生鲜农产品具有供给的时令性、需求的全年性以及旺季的销售价格低于淡季等特点。为了实现生鲜农产品均衡销售,满足消费者多样性需求,推行生鲜农产品跨季销售具有十分重要的经济
随着现代化社会的飞速发展,现代儿童所面临的社会生活空间日益扩大,所面临的社会价值日益多元化,面临的社会生活环境日益复杂化,这一切都对幼儿适应社会的能力发展提出了新的
幼儿园是以幼儿为主体的活动场所和环境,好的环境可以成为幼儿最关注的地方,也能成为他们尽情想象、创造与自我表现的舞台.当秋姑娘迈着轻盈的步伐来了,我和孩子们走入自然,