基于PVM的机群容错方法研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liuyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微处理器和网络技术的不断发展,以工作站机群系统为代表的计算环境成为当前并行计算系统的研究热点。但随着机群系统中节点数目的增加,任意节点失败而导致整个系统发生故障的机率大大提高;并且随着任务规模的扩大,计算时间不断增加,节点发生失败的机率也会随之增加。在缺乏必要的保护措施下,某个计算节点发生故障将导致整个系统失败,从而使此前大量的计算工作付诸东流。所以,并行系统要求具有良好的容错功能来保证和提高其可靠性。检查点能够保存和恢复程序的运行状态,是并行系统中实现容错的重要手段。检查点设置方法可以分为同步检查点和异步检查点。同步检查点方法具有算法简单,空间开销较小,直接恢复等优点,已广泛应用在工作站机群系统中。但它必须在生成全局检查点前后进行系统同步,同步操作将暂时中止进程的运行并导致大量的同步通讯开销。PVM 是目前比较流行的并行程序设计环境,它所提供的消息传递机制支持高效的异构网络计算。虽然PVM 具有一定的容错功能,能检测系统故障,但却没有提供容错策略,对系统故障进行恢复。传统的基于消息驱赶机制的同步检查点设置方法,虽然简单有效,但由于协调过程中引入的辅助控制消息数目和节点数目之间呈O(N2)关系,随着节点数目的增多,这些控制消息的数目将会急剧增加,其带来的时间开销是不容忽视的。为了降低同步检查点设置的时间开销,本文提出了一种基于PVM 的准同步检查点设置方法。通过检查点控制进程向所有进程发送检查点设置信号,各节点接收到信号后,停止应用程序的运行,开始进行检查点操作,检查点操作完成后各进程独立地启动应用程序;同时引入检查点计数器,识别在检查点时刻处于通信信道中的消息,对它们采取延后记录的方法,构造出一个一致性全局状态。同步检查点要求各进程在检查点发起时刻与结束时刻都要进行同步,并且通过清空通信信道中的消息来构造一致性全局状态。与此不同的准同步检查点方法只是在检查点发起时刻发送同步信号请求检查点操作,然后各节点独立地进行状态保存,对于通信信道内的消息采用异步记录的方式来实现一致性全局状态。准同步检查点方法吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率。该方法在PVM 环境下得以实现,实验结果表明此方法具有较好的性能。最后在节点冗余的系统结构上,采用准同步检查点设置方法,实现了PVM 的容错功能。
其他文献
在信息大爆炸的知识经济时代,如何解决数字签名的授权以及数字信息的安全传递成为当前需要迫切解决的问题,代理签名是解决这类问题的一种最有效和最具潜力的技术,同时,它又是一个
在各类工业生产控制现场,会有成百上千条的信号电缆,承担着信号传输的任务。这些电缆通常埋于地下,易受到周围物体的碰撞、挤压、以及有害物质的腐蚀,使其绝缘体受到损伤,绝缘强度下降。而保证电缆对地绝缘性能良好是一个关系到信号数据可靠传输、工业现场安全运行的重要因素,因此,在线测量电缆的绝缘参数,对掌握准确、可靠的现场数据,保护电网与各类监控系统的安全是很有必要的。 本文中所介绍的电缆绝缘测试仪是以
随着信息处理理论以及计算机技术的发展,计算机视觉的研究得到更加广泛和深入的发展,计算机视觉领域中的目标识别和跟踪是其中最重要的内容,它是融合了数字图像处理,模式识别以及
住宅社区智能化是目前国内、外住宅建设领域和信息产业领域非常热门而又前沿的话题,也是能否实现住宅产业信息化的关键问题之一。其中住宅社区智能化的规划设计和系统集成是
随着电子技术的飞速发展,计算机的软、硬件已日新月异,网络环境也发生了巨大的变化,电话银行也必须跟随计算机技术的发展进行改进。 本文面向合作银行等中小型金融机构,以
随着以太网的迅速发展,网络接入成为人们关注的重点。802.1x是基于端口的接入控制协议,正在逐步被各个厂商接纳用来构建接入管理系统。  本文对802.1x协议和其他常见的接入认
企业在发展过程中积累了大量数据,并在实施信息化的过程中,采用了不同的数据管理系统,这些系统从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。为了解决异构数据
自动文摘是自然语言处理领域的一项重要的研究课题。作为解决目前信息过载问题的一种辅助手段,它能在一定程度上弥补传统的信息检索技术在应对信息过载危机时所表现出来的种
外挂是网络游戏特别是MMORPG中最大的安全性问题,外挂泛滥严重影响了网络游戏的正常运营,针对目前MMORPG中外挂屡禁不止的现象,研究反外挂技术已经是刻不容缓。本文研究了MMORPG
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何