基于MapReduce大数据连接算法优化研究

来源 :湖北民族学院 | 被引量 : 2次 | 上传用户:beret85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术、互联网的快速发展,数据采集终端迅猛增加,每天会产生海量数据,逐步进入了信息爆炸的大数据时代。大数据时代的数据具有数量巨大、结构复杂等特点,导致存储和计算难度加大。连接操作是大数据处理中一种常见且十分耗时的操作,MapReduce作为一个并行处理的计算模型,因其高容错性、高易用性和高扩展性,广泛用于大规模数据处理及分析。由于MapReduce自身的局限性,使得该模型进行表连接运算时面临挑战。MapReduce计算模型默认的一次哈希分区机制,在处理大数据量时,容易出现因数据划分不均匀而导致的数据倾斜问题。本文重点研究大数据环境下两表等值连接查询算法的负载均衡优化,从降低非均匀数据分布对算法性能的影响角度出发,分析传统的数据划分方案在执行两表连接操作中存在的不足,提出基于key代价的两表等值连接负载均衡优化算法。优化算法的思想是:在进行连接操作前,将分区向Reducer指派时按照<key,value>键值对中的key的种类进行分区,然后通过分区筛选算法和分配算法确定分区号和Reducer的对应关系,使key/value能够通过改进分区传送到多个Reduce节点,将传统分区的分区号与Reducer任务号一对一的关系转换为多对一的关系。算法改进了传统的数据划分方案,给出了数据划分的具体方法和流程,将不均匀的数据均分到所有的Reduce节点进行处理,实现Reduce任务的负载均衡,一定程度提高了MapReduce作业的执行效率。实验结果表明,本文提出的基于key代价的两表等值连接负载均衡优化算法,能够有效缓解MapReduce连接操作中数据分布不均匀导致的Reduce端负载不均衡的问题。提高了MapReduce计算框架下连接查询算法的效率,具有很好的时间性能和可扩展性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
对江西某钽铌矿尾矿中长石、云母和石英进行了选矿回收研究。采用了"磨矿-筛分(选粗云母)-高梯度强磁选(除铁、云母)-螺旋分级(脱泥)"混合粗选工艺,长石、石英、云母混合粗精矿浮选分
目的:探索数据挖掘技术在名老中医临床经验继承中的可行性。方法:采用数据挖掘技术及其关联规则,对何立人教授治疗心悸的150例(595诊次)病案进行分析。结果:筛选出方剂595首,
台湾综艺节目发展已有40年历史,较大陆综艺节目早20年,两岸综艺节目在多个方面存在差异。认真分析两岸综艺节目差异,对促进两岸综艺节目的发展,是非常必要的。下面本文就从节目的
高校第二课堂的发展奠定了高校教育模式和内容改革与发展的基础,但不可否认的是蕴含在第二课堂中的自由性也需要结合国家意识形态和社会主流价值观。对于高校而言,如何将思想
【目的与背景】 膀胱癌是严重危害人类健康的恶性肿瘤,在泌尿系肿瘤中占第1位。目前研究普遍认为膀胱癌是受环境暴露、个体遗传背景及基因环境交互作用影响的多因素疾病。
东汉政权建立之后,为了保护地主商人的利益,巩固统治,没有采取传统的"重农抑商"的政策,反而对商业采取放任的态度。所以,东汉的商业经济空前繁荣。与之相适应,出现了"里有公侯之
目的:了解免费医学定向生的学习自我效能感。方法:使用《免费医学定向生学习自我效能感调查问卷》对257名免费医学定向生进行调查。结果:免费医学定向生总效能感得分为71.49&#177
讨论了在低温条件下UO2粉末的烧结行为,研究表明ADU至UO2的转化发生的烧结主要是由于氧化铀的还原放热使得物料局部过热造成的,在相同条件下的高氟料返炉其烧结性能受停留时
香菇L808单孢杂交技术路线:亲本选择→单孢分离→单核体菌丝确认→配对杂交组合→移植扩大繁殖→初筛→复筛→区别性鉴定→中间试验→示范栽培。选育出的香菇L16菌株主要栽培