基于Spark的并行化FP-Growth算法研究与应用

来源 :大连海事大学 | 被引量 : 2次 | 上传用户：InsideADONET

【摘要】

：

传统的单机数据挖掘算法由于硬件资源的限制，在分析海量数据时，挖掘效率并不能令人满意。Spark是基于内存计算的分布式计算引擎，就是为了处理海量数据而生的技术，比Hadoop的MapRe

【作者】

：

罗卓雅

【机构】

：

大连海事大学

【出处】

：

大连海事大学

【发表日期】

：

2018年01期

【关键词】

：

数据挖掘 FP-Growth算法并行化处理 Spark算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的单机数据挖掘算法由于硬件资源的限制，在分析海量数据时，挖掘效率并不能令人满意。Spark是基于内存计算的分布式计算引擎，就是为了处理海量数据而生的技术，比Hadoop的MapReduce快很多。将算法基于Spark实现并行化可以有效的提高算法对海量数据的分析效率。　　FP-Growth是关联规则领域近几年提出并被广泛应用的算法。FP-Growth算法因为要用内存缓存迭代过程中的FP-Tree结构，在面对海量数据进行挖掘时，FP-Growth会遇到内存瓶颈。为了解决内存瓶颈，本文提出基于Spark将FP-Growth算法实现并行化，并命名为SpaFP(Spark-FP-Growth)算法。通过实验比较，SpaFP算法的挖掘耗时更少，运算速度更快。　　因为SpaFP算法在数据分组过程中没有考虑均衡问题，可能会使某个运算节点迭代时间过长，影响整个算法的运算效率;同时传统的FP-Growth算法的项头表结构是一个数组，在迭代构建FP-Tree时匹配查找结点元素的时间复杂度高。为了提高SpaFP算法的运算效率，本文提出对SpaFP结合两方面进行优化:(1)提出一种均衡分组策略，把未分组的负载权值最大的项放在负载权值总和最小的组里面实现均衡分组;(2)提出一种新的FP-Growth的项头表结构，通过在项头表结构中加入一张哈希表达到快速访问元素的地址的目的，从而降低时间复杂度;命名为EHSpaFP(Equal-Head-SpaFP)算法。对挖掘数据规模、集群节点数量、支持度、加速比四个方面比较算法，通过用十万条和百万条数据实验，验证优化方法都有效，EHSpaFP算法具备非常高效的计算效率。　　最后本文提出一种将Spark中的主题模型LDA和EHSpaFP算法相结合的文本主题深度挖掘应用，可以挖掘出大量文本中的主题知识，并且能从松散的主题词汇中挖掘出潜在的主题知识关联规则然后进行分析，也是一种海量文本信息知识发现的新思路。对一万多篇有关“一带一路”的新闻报道文本主题深度挖掘，得到海量新闻报道中隐含的主题知识关联规则以及主题知识的描述结果。

其他文献

让爱与美托起明天的太阳

刚刚从大学校园毕业的我,带着羞涩、紧张与自豪感兴奋地来到孩子们中间.对于我来说,所有孩子都是陌生的,我每天费尽心思地去想如何教、如何管.可时间一天天过去了,我觉得我和

期刊

爱与美幼儿教师幼儿园幼儿教育大学校园敞开心扉自豪感种子阳光小班时间人生路标活动多用道路毕业

刍议幼儿园墙饰环境创设的资源生长点

《幼儿园教育指导纲要》明确指出:“幼儿园应该为幼儿提供健康、丰富的生活和活动环境,满足他们多方面发展的需要,使他们在快乐的童年生活中获得有益于身心发展的经验”……

期刊

刍议幼儿园墙饰环境创设资源枯竭幼儿园教育指导纲要多方面发展整体环境生活身心发展美化环境教育资源教育功能活动环境互助合作合作能力创设

《清明上河图》解读

每当站在《清明上河图》前,我总抑制不住心灵的震撼,说不清是亢奋还是惊诧。俨如置身于那个时代的市井之中,与作者进行一次又一次的心灵沟通,试图解读它的博大与精深。宋代著

期刊

《清明上河图》张择端城廓画中船上河对岸观察生活绘画基本功心灵沟通多样统一

组织文化对员工工作态度的影响研究

组织文化作为提高企业竞争力的重要资源，受到了众多管理者和学者的关注，但以往研究更多关注组织文化与财务绩效的影响，而忽视组织文化与企业非财务绩效的影响，组织文化是影响员工

学位

组织文化工作态度中介作用企业竞争力

复古科技带你回望时光

“怀旧”是全世界人民都会拥有的一个情节。科技领域也不例外,一些现代的高科技技术,被装载到复古的外壳中,就像“时间旅行者”令人感到穿越,但是,它们又绝对是房间内不可或

期刊

高科技技术物理形式数字音乐旅行者令人电子产品电话铃声复古风数字技术处理引擎

困境的呐喊——幼儿教师课程意识的缺失与重构

教师的课程意识是教师对整个课程系统的基本认识和反映,是教师对课程意义的敏感性和自觉度.从本质上说,课程意识是一种主体价值张扬的意识,是师生创造力彰显的意识.这就要求,

期刊

呐喊幼儿教师课程意识幼儿园课程课程开发能力前提和保证主体价值课程质量课程意义课程系统课程实施课程设计课程评价教师专业基本认识辨认能

积极心理学给学前教育的启示

积极心理学是二十世纪末兴起于美国的一个新的研究领域.2000年Seligman和Csikszentmihalyi在《美国心理学家》杂志发表的《积极心理学导论》,从此揭开了心理学从消极心理学模

期刊

积极心理学心理学模式优秀品质积极力量美国心理学家二十世纪末研究领域心理现象学导论普通人建设性杂志心态挖掘时代生活潜力美德解读

考虑跨季销售的生鲜农产品库存策略与供应链协调

生鲜农产品具有供给的时令性、需求的全年性以及旺季的销售价格低于淡季等特点。为了实现生鲜农产品均衡销售，满足消费者多样性需求，推行生鲜农产品跨季销售具有十分重要的经济

学位

跨季销售生鲜农产品库存策略供应链协调方法

学习弟子规对幼儿社会性的影响

随着现代化社会的飞速发展,现代儿童所面临的社会生活空间日益扩大,所面临的社会价值日益多元化,面临的社会生活环境日益复杂化,这一切都对幼儿适应社会的能力发展提出了新的

期刊

学习幼儿园社会生活能力发展现代化社会尊老爱幼总体能力适应社会生活空间生活环境社会价值教育策略发展滞后儿童心胸宽复杂化多元化中心

五彩秋天DIY

幼儿园是以幼儿为主体的活动场所和环境,好的环境可以成为幼儿最关注的地方,也能成为他们尽情想象、创造与自我表现的舞台.当秋姑娘迈着轻盈的步伐来了,我和孩子们走入自然,

期刊

秋天幼儿园自我表现自然物教室活动场所环境创造主体欣赏舞台落叶老师金黄姑娘橙色

基于Spark的并行化FP-Growth算法研究与应用

与本文相关的学术论文