论文部分内容阅读
在并行和分布式计算环境中,随着系统规模的增长,系统出错的概率大大增加。为提高集群系统的可靠性和可用性,针对并行计算环境的特点,在利用改进型检查点迁移机制的基础上,分析了集群系统中并行计算高可用管理的关键技术,给出了高可用管理模块的实现方法,可实现集群系统中计算节点的故障自探测、任务自恢复功能。通过验证,证明了该方法的有效性。