非停等算法级容错技术的研究及其在HPL上的实现

被引量 : 0次 | 上传用户:wxbft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高性能计算机系统规模的增大,系统的可靠性问题也越来越突出。目前高性能计算机系统容错大都采用检查点技术,通过周期性地将系统的状态写入磁盘。但随着高性能计算机系统的计算能力和磁盘读写能力之间差距的不断增大,检查点技术向下一代高性能计算机的可扩展性堪忧。另一种解决途径是算法失效恢复技术,它比检查点技术具有更高的效率。然而,该技术和检查点技术一样,都基于停等模式,即一个节点失效,全系统都要停下来等其修复。对于下一代高性能计算机,停等模式在很大程度上会影响程序的并行效率。   本文提出了一种非停等的算法级容错技术——算法失效热替换技术。在程序执行过程中发生节点失效后,该技术不是停等地恢复失效节点上的数据,而是用冗余节点替换失效节点,使运算能够立刻继续进行下去。程序的最终结果可以由替换后得到的中间结果经过一个简单的变换得到。针对多次失效的情况,该技术采用“后台加速重建校验和”机制,通过增加一些加速节点协助冗余节点重建校验和,并将重建的过程和计算节点的正常执行过程重叠起来,从而在理论上可以将重建的开销降至很低。   为了验证热替换技术的可行性,我们将其应用于HPL中,并评估了其性能。这套算法级实现可以容忍HPL执行过程中耗时最多的DGEMM过程中的模拟失效。实验结果显示,在最大1800个核的规模下,热替换技术容忍10次模拟失效的开销约为同等情况下算法失效恢复技术开销的25%。   为了运用热替换技术容忍运行时的节点失效,本文探讨了它所需要的最小外部环境支持。结合现有的外部环境支持,我们在应用层加入了一些额外的支持,先后实现了两套解决方案。第一套解决方案可以容忍HPL执行过程中的单个运行时进程失效;第二套解决方案使用外部监测机制检错,可以容忍DGEMM过程中的多个运行时节点失效,包括由Infiniband网络故障引起的节点失效。第一套解决方案的实验结果显示,即使在小规模下,热替换技术的性能也明显优于算法失效恢复技术。
其他文献
作为Apache Hadoop项目的重要组成部分,Hadoop Distributed File System(HDFS)是一种高效、并具有良好扩展性和可靠性的分布式文件系统。但是,HDFS的应用仍然存在一些阻碍:1.
随着航天事业快速发展,应用载荷的数据量越来越大,相应的地面接收处理设备也需要进行更新换代。地面设备开发需要有数据输入才能构成一个完整的系统,用以配合地面接收设备开发,进
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。发展至今,生物信息学的主要任务已经从获取生物数据转变为利用已有的各种生物数据获取
随着半导体工艺技术的不断进步,单个芯片内可集成的晶体管数目不断增多。多核处理器通过提取程序的线程级并行性,利用各个节点的协同计算,不断提升微处理器的性能,成为未来高
国家重大科技基础设施项目--东半球空间环境地基综合监测子午链(简称子午工程)首枚探空火箭于2011年5月7日在中国科学院海南探空部发射场成功发射,有效载荷部分为中科院空间中
人类已经进入信息时代,随着互联网的快速发展,网络上的信息呈几何指数增长。然而,面对不断膨胀的海量资源,人们却很难找到需要的信息。虽然随着信息检索技术的发展,人们已经能够通
缺省逻辑是非单调性推理的一种重要方法。基于命题缺省逻辑的推理问题的计算复杂度在多项式分层的第二层上,因此它可以用来描述很多具有相同复杂度的问题。判断聚合理论是社会
近年来国内外对地观测的分辨率愈来愈高,空间任务产生的数据量也随之增加,这就要求空间卫星通信链路在保证较低的误码率的同时,需要具有更高的通信速率;同时随着新的数字信号处理
本文针对初中生几何证明解题困难,例如在开始接触几何证明题的学生觉得几何证明题困难,在学习几何证明的过程中,无法有效的进行图形、文字、符号三种语言的转换,在解题时不会
星载计算机是卫星数据管理系统中的关键部件,负责各种数据的采集、处理、存储、转发等工作。随着航天任务复杂度的提高,星载计算机的性能也需要越来越高。上世纪80年代,我国的星