基于FT-MPI和纠删码的并行程序容错机制研究与性能优化

来源 :南开大学 | 被引量 : 0次 | 上传用户:chinamp3jgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高性能计算(High Performance Computing,HPC)系统在规模和拥有的处理器数量上有迅速增长的趋势。而系统出现故障的可能性也随之大大增加。如何设计高效可靠的容错机制已经是高性能计算领域中迫切需要解决的问题。MPI(Message Passing Interface)是高性能计算系统中事实上的编程规范。在多种包含进程级容错功能的MPI实现中,FT-MPI[7]检查点/恢复机制的系统开销较低。然而其容错机制并非对用户透明,恢复阶段对MPI通信域和用户数据的恢复需要在应用程序一级实现。   本文基于FT-MPI运行时环境和多种纠删码(RAID4/RAID5/RDP/B-code),实现了一种轻量级的MPI程序容错机制。根据对系统开销和容错要求的不同,用户可以选用基于不同编码设计的检查点/恢复接口,能够在系统中多个进程或者节点故障的情况下实现运算中间数据的自动恢复。   通过对消息传递系统中主流容错机制的充分研究,我们选定了基于纠删码的内存协同检查点协议作为设计各检查点/恢复接口的解决方案。在做检查点时,接口根据某种编码把处于同一条纹中的数据按位异或后得到冗余数据,保存在某个冗余进程或者散布于各个进程中。按照协同检查点协议,各个工作进程在相同的位置调用检查点接口,系统每一时刻只保存最近的一个检查点。恢复时,FT-MPI首先恢复MPI运行时环境和MPI库的状态,然后应用程序调用恢复接口,从之前保存的内存检查点数据中通过解码恢复重启进程的检查点数据,使得整个程序回滚到上一次做检查点的状态并继续运行。   本文将多种接口的性能进行了比对,包括调用接口的时间开销,以及引入检查点机制对于系统资源的占用。测试中发现,各检查点/恢复接口的效率主要取决于接口中调用的MPI组通信函数。本文将对接口测试中性能差异的原因进行详细的描述,并给出相应的优化方案。通过对各种接口在FT—MPI环境下的测试,发现接口性能良好,开销较小,证明了这种检查点/恢复机制实际应用于分布式计算系统中的可行性。
其他文献
随着计算机技术的发展和普及,各行业的管理手段从人工逐步转变成自动或半自动方式。本文探讨对ICU监控屏幕字符图像进行实时采集、识别、记录相关信息的技术,以提高工作效率,
目标跟踪做为数据融合问题的一个典型应用,受到了学术界的广泛关注。它的主要目的是确定监测区域内目标的位置、个数、速度等。随着无线传感器网络的发展,基于无线传感器网络的
本论文的主要工作是在研究了基于ARM9体系结构的Samsung S3C2410处理器的基础上,并以该处理器为核心,加上外部存储器和音频编码解码芯片等器件,完成了一个嵌入式音频系统的硬
在无线网络中,系统资源的总量总是要小于对其的需求量,资源共享是不可避免的。有共享就有分配,如何使用无线资源管理的各种方法对复杂的无线物理信道、网络资源进行合理配置,完善
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加
入侵检测技术是继传统的安全保护措施之后新一代的安全保障技术。作为信息安全保障中的一个重要环节,它很好地弥补了访问控制、身份认证等传统机制所不能解决的问题,对计算机和
在近半个世纪以来,专家系统技术已经获得了迅速发展,广泛地应用于社会中的各个领域。但是专家系统在其发展过程中还有许多待解决的问题,例如:知识获取的“瓶颈”问题;不具有联想记
随着嵌入式实时系统的广泛应用,使用“防”、“检”思想来实现安全性的传统信息系统安全技术,如防火墙、入侵检测等,由于存在增加系统整体风险的问题已不能满足系统安全需要
随着Internet的迅速发展,人们对信息的获取途径也逐渐增多,从传统的媒体转向互联网,越来越多的用户习惯通过网络来寻找他们所关心的信息。与此同时,网民也开始习惯于在网络上记录
公共安全与人们的生活密不可分,而监控系统为人们提供了安全保证。视频监控系统对于保障工业生产、人民生活与社会安全具有重要意义。近年来,数字视频监控系统已经成为监控领