Hadoop集群中影响应用性能的因素分析

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:dygaalove4390
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Hadoop集群中应用执行的低效率、高成本问题,首先,通过对Hadoop分布式存储技术和并行编程模型的分析,发现数据集采用单文件还是多文件方式,以及数据块划分的大小是影响其性能的主要因素.其次,设计实验探讨了不同规模集群环境下,两类数据集以及不同大小的数据块对应用性能的影响程度.最后,综合实验结果发现,在数据量一定的情况下,随着数据块的增大,map任务数的变化导致大文件数据集的执行效率越来越高于小文件数据集的执行效率;另外,两类数据集在小规模集群(1个Slave)上的执行效率大约均是大规模集群(10个Slave)下的2倍.故此,在Hadoop集群环境中为了提高应用性能,应通过增大数据块等方法来减少map任务数,而不应盲目增大集群规模.该结论可对Hadoop集群环境下应用效率的优化提供参考.
其他文献
由于合作伙伴在做出最终投资决策方面的延误和筹集的不确定性,阿曼已于2019年5月10日决定无限期推迟与国际投资者在合资企业(JV)中建立精对苯二甲酸(PTA)和聚对苯二甲酸乙二
超高清晰度电视(UHDTV, Ultra-high Definition Television)技术将显示行业引入新的历史阶段,其57.29%的系统色域覆盖率更显示出超凡的颜色还原能力,有力推动了宽色域视频研
<正>一辆好跑车如果配上更好的引擎,那它会跑的更快。如同好马配好鞍,节能服务产业作为政策驱动型的产业,其快速发展一直离不开政策的支持。如何把握好政策脉搏,是节能服务产
随着遥感技术的快速发展,多传感器、多时相、高空间分辨率、高光谱分辨率的遥感数据量也越来越多,数据类型也越来越复杂。传统的单机集中式数据存储方式无法满足高效、安全存
天然针叶林主要分布在温带和寒温带地区,但是在热带地区仍然有一定面积的分布。热带天然针叶林对维持热带地区生态系统的多样性和生境异质性具有特殊意义。海南省霸王岭林区是
目的:探讨在梅毒孕妇中护理中实施个性化护理干预的临床效果和母婴结局。方法:选取2016年1月~2017年12月本院收治的梅毒孕妇患者60例,随机分为研究组与对照组各30例。研究组采
土地利用与土地覆盖变化(LUCC)是全球变化最明显的方面。区域土地利用变化及其驱动力的研究是全球LUCC研究的重要组成部分,只有对土地利用时空变化进行监测和分析,才能更好地
目的:胸外科手术是外科手术中创伤较大的手术,围手术期处理是胸外科手术成功的关键环节之一。胸腔闭式引流技术是胸外科手术发展的一个里程碑技术,其作用是将胸腔内的液体气体排
弗朗西斯科·瓦罗(Francisco Varo)撰写的《华语官话语法》是世界上第一部正式刊行的汉语语法著作,也是目前所知传世至今的汉语语法书中最早的一本。作为当年西方传教士学习
鉴于排球比赛位置技术在理论上尚未形成统一的认识,本文就排球比赛位置技术的概念、分类以及各位置技术的基本特点进行了阐述,并论述了排球比赛位置技术的作用,以期引起广大