基于MapReduce的频繁模式挖掘算法并行化及负载均衡的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:jedy2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究工作面向大数据处理任务,基于“Hadoop技术”、“并行化”、“负载均衡”的思想,将频繁模式挖掘算法运用在MapReduce框架上,研究了并行计算下有关挖掘算法及其负载均衡性能的优化技术,实现在大规模集群环境下提高数据处理的并行能力、集群系统的负载均衡性和合理的数据分发机制这一目标。文中通过引入FIUT算法并将其运行在Hadoop平台上来解决挖掘过程中的时空消耗和I/O负载问题。利用精简的FIU-Tree进行挖掘,能够有效降低搜索空间和递归次数;同时,利用Hadoop架构集群的方式和高度并行计算的MapReduce框架可以用来应对大数据计算的需求。因此,针对大数据分析处理任务,本文结合MapReduce实现了FIUT算法的并行计算。考虑到FIUT算法执行时的顺序性对并行挖掘的独立性造成了阻碍,文中对其分解步骤进行优化,将算法整个执行过程分为三个MapReduce工作执行,使各计算节点独立构建本地子树,完成并行挖掘的任务。在分布式集群中,负载均衡性能直接关乎并行算法的工作效率。因而在Hadoop环境下,关于协调各节点在计算负载上的平衡性也是本文的一个关注重点。对于现有的PFP算法在平均分组划分机制上的不足,本文选取新的负载评估计算方式并重新设定分组划分策略,实现全局计算的平衡性;此外,在对并行FIUT算法负载均衡性能的优化上,文中尝试将项集分解代价对节点计算负载的影响考虑在内,优化数据分配策略,由此提出了Hadoop集群环境下并行FIUT的负载均衡算法。该算法以尽可能缩小多个Reduce任务间长短项集数量差异作为分组划分标准,通过量化负载权值参数,预估节点处理任务时的计算负载来为各组间的数据分发提供依据;与此同时,为了直观反映当前集群的数据倾斜程度,文中研究并定义了并行熵作为负载平衡因子,通过分析其基本理论思想,推导出并行熵与集群整体负载情况之间的关系。在webdocs.dat数据集上的实验结果表明,与已有的基于MapReduce框架下的PFP算法相比,本文所提优化方案可以有效提升算法的并行挖掘效率,满足预期效果。
其他文献
糖尿病是一种慢性病,患者不可能长年住在医院治疗。因此,对糖尿病患者及其家人要饮食调节、药物治疗、心理疏导及规律运动几方面进行健康指导,使之掌握在家中防治此病的具体
我丈夫的姥姥九十岁了,耳不聋,眼不花,背不驼,人虽干瘦却极少生病,终日不言不语,不急不恼,手脚从不闲着。若问她养生长寿之道,她可回答不上来,倒是有几样趣事挺耐人寻味。 搬
由于人们生活水平的不断提高,患高血脂的病人则越来越多,而引起脑梗死病人数量也日益增加。特别是急性脑梗死病人的及时诊断和治疗对提高其生存率和愈后的生活质量非常重要,我们
针对某型号磁悬浮永磁电机转子磁环胶接强度不能满足工作要求的问题,提出采用M46J/L1000复合材料缠绕加强环的保护设计方案,根据工艺实验结果,利用有限元分析软件MSC.Patran/Nastra
我们从武汉市一富营养化池塘中分离了一株铜绿微囊藻,该藻是该池塘常年稳定发生水华的主要蓝藻。在纯化培养的基础上,我们开展了光照、温度、营养盐及Cu2+对该铜绿微囊藻生长及
针对UCXP-wa相机影像的特点,本文介绍了利用外方位元素恢复立体模型的方法。分析影响空三加密成果质量的因素,并结合工作实际,总结作业中的注意事项,对常见错误进行解决分析。
目的:观察泻白温胆汤对急性支气管炎(痰热壅肺证)患儿的临床疗效、中医证候积分及单项症状积分等影响。评价泻白温胆汤治疗小儿急性支气管炎的临床疗效。方法:将符合纳入标准的64例急性支气管炎的患儿随机分为试验组和对照组各32例。试验组给予泻白温胆汤中药汤剂治疗,对照组给予小儿清肺化痰口服液治疗。两组均治疗7d。观察两组患儿的总有效率及治疗前后临床症状、体征的改善情况。结果:纳入的64例患儿中,试验组脱落
SnRK2 (Sucrose non-fermenting 1-related protein kinases 2)是一类仅存在于植物中的蛋白激酶,是SnRK家族三个亚家族(SnRK1, SnRK2, SnRK3)的成员之一,已在众多植物中被克
益母草是妇科常用要药,多少年来,它对治疗妇女经带胎产多种疾病,发挥了显著的作用,故称之益母草。说起益母草,在广大人民群众中,还流传着一个美丽动人的故事。 早年,大固山下