论文部分内容阅读
Hadoop系统作为分布式系统的典型代表之一,广泛应用于处理具有大数据量的应用问题。该系统分为两层:分布式数据处理层、分布式文件系统层。两层中都包含两种节点,节点之间采用发送心跳信息的方式来进行交流,从而完成整个系统的管理、运行。其中,分布式数据处理层主要用于完成用户提交给系统的应用程序。现有的Hadoop系统中,采用固定大小的心跳间隔。这种方式没有考虑到集群规模、任务大小、集群资源等因素,不能很好的发挥系统的整体性能。 通过分析Hadoop系统中的分布式数据处理层的心跳机制,并分析与心跳相关的影响因素对心跳大小设置的影响,本文提出了系统中心跳间隔设置的评价标准。同时,根据心跳值与子任务的计算时间之间的三种大小关系来在概率上分析出系统最优的心跳值应为每个子任务的计算时间,此时,假设每个子任务的计算时间是相同的。同时,根据评价标准验证此理论分析值的正确性。 本文在Hadoop平台上,提出心跳间隔最优值的设置值后,通过四组实验来验证理论分析值的正确性。每组实验分别通过设置不同大小的心跳值来统计出对应的总作业执行时间。由于在实际的应用中,每个子任务的计算时间不是相同的,所以在每组实验中统计了子任务计算时间并验证了其满足正态分布,同时统计了每种情况下总作业执行时间最短对应的心跳间隔值,并对比了两个时间之间的关系。实验结果表明:作业执行时间最短对应的心跳间隔值在子任务计算时间取值概率最大的范围内,从实际应用中证实了理论分析值的正确性。