基于大数据的Hadoop并行计算优化处理性能分析

被引量 : 0次 | 上传用户:ddp100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来新一代移动通信、物联网、云计算等新兴技术的发展和普及,数据流量呈现爆发式增长,原有通信系统中的数据处理压力增大。而分布式计算Hadoop中的MapReduce编程架构凭借其强大的数据处理能力已经在文本分析、自然语言处理、商业数据处理等领域内成为比较成熟的解决方案,能够满足现阶段通信领域的数据处理需求。但随着数据量的进一步增大、涉及的配置参数进一步增加,配置参数优化成为目前限制MapReduce性能的主要瓶颈。Hadoop配置涉及了200多个参数,其中有约13左右会对运行的作业产生较大的影响,这些参数恰恰决定了集群整体的性能表现。围绕上述问题,本文以性能调优为基础,设计一种新型的参数配置分析系统,能够针对每一个作业得到相应的最优化的参数配置。本文在原有MapReduce框架的基础上提出了三个新的逻辑部件:参数分析器、参数判决引擎、基于代价的优化模型。其中,参数分析器会在未修改的MapReduce程序中收集相关统计信息;参数判决引擎会对各个参数域进行细化的预测;基于代价的优化模型则是在前两者的基础上将参数配置简单化,给出最优化参数。上述三个部件综合使用下,可以针对每一个作业给出最优化的参数配置。通过对MapReduce主要领域内的典型应用:词频统计、词共现统计、排序进行优化后参数的综合评估来验证本文提出的三个逻辑部件的有效性。经过测试和验证,经过本文所设计的三个逻辑部件得出的最优化参数相比较经验法则与默认参数在解决Hadoop服务器集群的性能瓶颈问题上具有优越性和有效性。新的优化模型将参数配置简单化,且具有创新性和实用性。
其他文献
诺斯开创的路径依赖理论对理解战略管理会计系统流程再造提供了一个有效的分析视角。文章在对制度变迁中的路径依赖理论进行简要阐述的基础上,对战略管理会计系统流程再造的必
目的:通过对晚期早产儿的1年随访,评价其体格、神经发育情况。方法:选择2013年4月至2014年3月在本院产科出生并在门诊随访的晚期早产儿作为观察对象(n=50),随机选择同期出生的健
银屑病是一种以表皮过度增生和真皮慢性炎症反应为特征的常见皮肤病。银屑病的病因不明,主要与遗传因素、感染因素、代谢障碍、内分泌因素、神经精神因素、免疫因素等相关。中
传统广播电视信息传播存在单向性和滞后性,以及在内容呈现局限性等问题,在科技不断发展和新媒体不断壮大的竞争态势下,传统广播电视面临着非常大的挑战。面对这样的新局面,传
研究背景脊柱外科术后造成的椎板缺损区是通过纤维结缔组织增生来修复,整个过程经历了早期的炎症反应、肉芽组织增生、纤维化、瘢痕组织形成及重塑等基本病理生理过程,其基础是
目的:了解博来霉素(BLM)致大鼠肺纤维化模型肺组织的动态病理变化,探讨BLM致肺纤维化的作用机制。方法:60只雄性SD大鼠采用随机数字表法分为正常对照组(N组)和肺纤维化模型组
现代社会是人才交流与培养的社会,是经济知识与人力资源高速发展的时代,人力技术在社会经济发展进程中起着决定性作用。人力资源作为人力技术发展的最重要部分,已经成为了区域经
苯乙烯一异戊二烯一苯乙烯(Styrene-Isoprene-Styrene Tri-block Copolymer, SIS)热熔性压敏胶具有内聚力大、载药量高等优点,但因其较强的疏水性,限制了它在经皮给药系统(Tr
本文以BERARMAPHV05型叶片泵关键摩擦副叶片-定子副为研究对象,针对复杂工况下如何改善叶片-定子副的冲击载荷和润滑性能这一问题,通过研究叶片容腔在定子环内的运动形式、压力