论文部分内容阅读
随着微处理器和网络技术的不断发展,以工作站机群系统为代表的计算环境成为当前并行计算系统的研究热点。但随着机群系统中节点数目的增加,任意节点失败而导致整个系统发生故障的机率大大提高;并且随着任务规模的扩大,计算时间不断增加,节点发生失败的机率也会随之增加。在缺乏必要的保护措施下,某个计算节点发生故障将导致整个系统失败,从而使此前大量的计算工作付诸东流。所以,并行系统要求具有良好的容错功能来保证和提高其可靠性。检查点能够保存和恢复程序的运行状态,是并行系统中实现容错的重要手段。检查点设置方法可以分为同步检查点和异步检查点。同步检查点方法具有算法简单,空间开销较小,直接恢复等优点,已广泛应用在工作站机群系统中。但它必须在生成全局检查点前后进行系统同步,同步操作将暂时中止进程的运行并导致大量的同步通讯开销。PVM 是目前比较流行的并行程序设计环境,它所提供的消息传递机制支持高效的异构网络计算。虽然PVM 具有一定的容错功能,能检测系统故障,但却没有提供容错策略,对系统故障进行恢复。传统的基于消息驱赶机制的同步检查点设置方法,虽然简单有效,但由于协调过程中引入的辅助控制消息数目和节点数目之间呈O(N2)关系,随着节点数目的增多,这些控制消息的数目将会急剧增加,其带来的时间开销是不容忽视的。为了降低同步检查点设置的时间开销,本文提出了一种基于PVM 的准同步检查点设置方法。通过检查点控制进程向所有进程发送检查点设置信号,各节点接收到信号后,停止应用程序的运行,开始进行检查点操作,检查点操作完成后各进程独立地启动应用程序;同时引入检查点计数器,识别在检查点时刻处于通信信道中的消息,对它们采取延后记录的方法,构造出一个一致性全局状态。同步检查点要求各进程在检查点发起时刻与结束时刻都要进行同步,并且通过清空通信信道中的消息来构造一致性全局状态。与此不同的准同步检查点方法只是在检查点发起时刻发送同步信号请求检查点操作,然后各节点独立地进行状态保存,对于通信信道内的消息采用异步记录的方式来实现一致性全局状态。准同步检查点方法吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率。该方法在PVM 环境下得以实现,实验结果表明此方法具有较好的性能。最后在节点冗余的系统结构上,采用准同步检查点设置方法,实现了PVM 的容错功能。