基于MPI的并行容错技术研究与实现

被引量 : 0次 | 上传用户:zwb1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着HPC系统的迅猛发展,其系统的可靠性问题越来越引起人们的关注,容错技术作为提高系统可靠性的一种重要的技术手段,对其开展研究具有十分重要的意义。MPI作为HPC领域使用最为广泛的并行编程环境,在MPI系统中实现对容错的支持是容错技术研究的一个重要方向。本文对现有的容错技术进行了深入的研究、分析和对比后,选择检查点技术作为本课题系统的容错手段。设计实现了独立于MPI标准实现库、具有可移植性和可扩展性的MPI容错系统——VFTS(Variable-based Fault Tolerant MPI System)。在设计和实现VFTS系统中,主要工作如下:建立了检查点容错的程序性能分析模型以指导用户为程序添加容错功能。在系统故障服从泊松分布时,给出了程序如何添加容错功能以获取程序最小时间开销。此外根据系统特点,总结了容错程序性能优化方法,提出了程序添加容错功能时获取较小时间、空间和通信开销所需要遵循的约束原则。提出了通信器动态重构方法,针对现有MPI标准中的静态进程模型对于容错的限制,通信器动态重构可以使MPI程序能够实现对失效进程的隔离、排除、新进程加入,通信器动态恢复等功能,使得程序在有进程发生失效后能够动态重构其通信器和通信空间。设计了用于程序用户数据保存和恢复的伙伴协议。伙伴协议通过两个或多个进程之间互相保存对方进程用户数据来完成容错功能,设计简单且容错能力可根据伙伴协议的变化而变化,方便用户根据程序容错需求通过调整伙伴协议来调整程序容错能力。设计了保证系统程序状态正确性的全局一致性协议,此协议设计与实现简单、开销较小。在伙伴协议和检查点机制提供的数据支持下,用于保证程序失效前后程序系统数据和用户数据保存和恢复的一致性。设计和实现了VFTS系统,并采用NPB程序对程序添加容错功能后对程序时间性能、空间性能、通信负载、容错能力和系统I/O带来的影响进行了详细测试和分析。
其他文献
单雷达成像系统受到信号带宽和相干积累角的约束,雷达分辨率有限。逆合成孔径雷达(ISAR)目标特性增强是一种新兴的雷达成像处理技术,它利用单组或多组从不同空间、频率及时间
目的观察中西药联合视网膜激光治疗增殖性糖尿病性视网膜病变合并少量玻璃体积血临床效果。方法对42例(48眼)增殖性糖尿病性视网膜病变合并玻璃体积血患者进行中西药联合视网
关于住院精神病人贫血情况的报道比较鲜见.本文仅对我院住院精神病人发生的贫血情况做一简要调查,现将结果报道如下:
结合区域经济学和发展经济学的基本理论,概述了区域经济可持续发展能力,介绍了可持续发展的含义、区域经济可持续发展的内涵以及区域经济可持续发展能力的具体定量。详细分析
目的:探讨普洱熟茶提取物茶褐素对2型糖尿病小鼠的降血糖作用及其机制。方法:高脂饮食加低剂量链脲菌素建立小鼠2型糖尿病模型,连续灌胃给予0.25、0.5、1.0g/kg/d茶褐素6周,实
随着中国经济的迅速增长,一方面,相应的国民可支配收入也在快速提高,消费者的消费需求进一步升级。在这种日益增长的消费需求的推动下,消费者在满足基本需求的同时,越来越倾
导航星座星间链路的主要任务是提供用户准确的定位信息和高速数据传输。其中,提高星间精密测距精度是保证定位精度的关键。但空间环境存在大量干扰,会对测距精度产生严重影响
大学生心理健康教育课程是心理健康教育的主要渠道和基本环节,也是提高大学生心理健康水平的有效途径。然而,高职心理健康课程研究与实施仍存在诸多问题,为此,应设计符合高职
加拿大是一个移民国家,其国民身份,文化和历史都与移民因素有关。在加拿大的文化和国民意识形态形成的过程中,苏格兰人和苏格兰文化传统曾做出过重要贡献。神话传说是民族文
建筑装饰业是建筑业四大子行业之一,受益于二十世纪末我国的城镇化建设及房地产业的拉动,建筑装饰行业年增速达到15%以上,2016年行业产值约达到4.3万亿元。我国的建筑装饰市