Hadoop通信心跳的优化研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:hcjw248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop系统作为分布式系统的典型代表之一,广泛应用于处理具有大数据量的应用问题。该系统分为两层:分布式数据处理层、分布式文件系统层。两层中都包含两种节点,节点之间采用发送心跳信息的方式来进行交流,从而完成整个系统的管理、运行。其中,分布式数据处理层主要用于完成用户提交给系统的应用程序。现有的Hadoop系统中,采用固定大小的心跳间隔。这种方式没有考虑到集群规模、任务大小、集群资源等因素,不能很好的发挥系统的整体性能。  通过分析Hadoop系统中的分布式数据处理层的心跳机制,并分析与心跳相关的影响因素对心跳大小设置的影响,本文提出了系统中心跳间隔设置的评价标准。同时,根据心跳值与子任务的计算时间之间的三种大小关系来在概率上分析出系统最优的心跳值应为每个子任务的计算时间,此时,假设每个子任务的计算时间是相同的。同时,根据评价标准验证此理论分析值的正确性。  本文在Hadoop平台上,提出心跳间隔最优值的设置值后,通过四组实验来验证理论分析值的正确性。每组实验分别通过设置不同大小的心跳值来统计出对应的总作业执行时间。由于在实际的应用中,每个子任务的计算时间不是相同的,所以在每组实验中统计了子任务计算时间并验证了其满足正态分布,同时统计了每种情况下总作业执行时间最短对应的心跳间隔值,并对比了两个时间之间的关系。实验结果表明:作业执行时间最短对应的心跳间隔值在子任务计算时间取值概率最大的范围内,从实际应用中证实了理论分析值的正确性。
其他文献
基于集群的作业管理系统是一种建立在操作系统之上的中间件。它的主要用途是强化操作系统的批处理功能,它将地理上分布、异构、自治的各种工作站、PC机和专用设备通过网络构
本文主要提出一种安全域之间基于网络互连的新密钥交换协议,它是对面向网络基础设施新安全机制的扩展。该协议通过在IP层上实施嵌套安全域之间逐跳(hop-by-hop)身份验证和密钥
如何借助先进的计算机技术和科学手段,对各种防震减灾信息进行科学的组织和管理,以便迅速的采取相应的措施将突发地震灾害所带来的损失减小到最低程度是城市防震减灾工作中急
基于图像的绘制(IBR)技术是计算机图形学与计算机视觉相互交叉形成的一个研究热点。不同于传统图形学,基于图像的绘制使用一些预先采集的图像来生成不同的场景画面。随着基于
本论文首先分析了传统电信业务的不足,研究了ParlayAPI和万维网服务技术在电信业务开发中产生的影响。然后结合万维网服务组合的思想,提出了采用万维网服务的业务过程执行语言(
Web服务网络管理是一种新的网络管理方式,是网络管理发展的新阶段。它结合了Web服务的优点,可以在网络异构环境下跨越防火墙和各种平台实现组件的互操作,可以把已有的网络管理功
随着电子商务的快速发展,在线购物网站数量以及网上商品种类不断的增加,顾客要从购物网站找到自己满意的商品也变得越来越困难。为了找到最符合自己要求的商品,顾客只有花费大量
大规模分布式计算系统的研究是信息技术领域当前的研究热点之一。为解决传统的中心制分布式计算系统在大规模环境下的性能瓶颈问题,自协调分布式计算系统采用了一种完全无中心
随着互联网等计算机技术的高速发展,数据挖掘相关技术正在成为当前的热门学科,数据关联便是其中之一。数据关联的任务是将数据集中的属于同一现实实体的记录聚类。如果一个数据
随着计算机的普及,其应用领域也随之扩大,某些计算机的应用已经潜移默化的改变着人们的生产和生活方式。在计算机系统中,软件是灵魂,硬件是身体,软件控制硬件要做什么,如何去做,硬件