集群系统协调式检查点和回卷恢复技术的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:guanhuaicn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机系统和网络的广泛应用,可用性和高性能成为计算机系统所追求的目标,集群技术的出现和发展很好的解决了这两个问题。集群就是由一些互相连接在一起的计算机构成的一个并行或分布式系统,对外提供统一的服务。通过高性能网络或局域网互联的服务器集群正成为实现高可伸缩的、高可用网络服务的有效结构。随着集群系统规模增大、部件增多,集群系统的整体故障概率也不断上升。容错技术已经成为避免造成资源巨大浪费的不可或缺的需求,检查点与回卷恢复技术是一类重要的容错技术。 本文在对目前应用较广的检查点设置及回卷恢复技术进行深入研究的基础上,针对已有的协调式检查点协议通常存在同步及存储开销较大的问题,提出一种基于"Chandy-Lamport"协议的“3-phase"式检查点协议,有效避免了大量记录日志消息,降低了协议开销,可以更好的满足高性能计算集群容错的需要;另外还介绍了现有的一些检查点文件的存储策略,分析了其不足,然后引入了分布式存储的思想,采用IDA编码将检查点分块存储,在增加有限存储空间的同时,可以容忍多个结点的永久故障。并在分块后附加MD5摘要值,用于分块的完整性保护。回卷恢复时,采用简化后的解码方法对分块进行解码,重建检查点,实现进程状态的恢复,减少了检查点整体开销。最后,本文所实现的检查点功能土要是在libckpt的代码基础上修改而成,提出的“3-phase"式检查点协议和基于IDA的分布式存储方式的性能在IBM1350集群实验平台上得到验证。 本文所作的研究主要是针对高性能计算集群环境的应用,对协调式检查点协议和检查点文件分布存储方式分别进行了一定的改进,期望可以对该领域的研究做出一些有益的探索。
其他文献
教育评估是教育信息化的重要研究领域,它可以发现人才培养过程中成功和不足之处,对保障和提高教育质量具有重要作用。教育部学位与研究生教育发展中心的学位评估网络信息系统
入侵检测作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统遭受危害之前拦截和响应入侵。从网络安全立体纵深、多层次防御的角度出
相对于其它生物识别技术,虹膜识别具有以下优点:虹膜具有丰富而独特的纹理特征,每个虹膜都是独一无二的,非常适用于身份鉴别;虹膜特征稳定、难于伪造,更为可靠;另外采集虹膜图像
随着数据库和信息技术的快速发展,人们面对的数据量以爆炸式的速度增长,为了更好的利用资源,从这些数据中获取有价值的信息,数据挖掘技术应运而生。目前,在数据挖掘领域的研
随着信息技术的快速发展,以及网络的大规模应用,网络中需要传输的数据呈爆炸性增长,这给网络传输带来巨大的压力。随着存储系统规模的扩大,存储系统中形成了复杂的网络链路,
随着Web技术的不断发展,Web服务逐渐广泛的应用于各个领域。服务发布者将自己定义的Web服务注册到UDDI注册中心,让服务使用者能够发现并访问服务。但是由于UDDI的开放性,注册到U
医学图像的三维表面重建可为医生提供逼真的三维表面效果图,这些三维图形对医生分析病人的病情起到了很大的帮助作用。然而,由医疗设备得到的断层图像相邻两层间的距离要大于同
随着计算机网络的普及,越来越多的资源以数字形式在网络上传播,软件产品已经渗透到工农业生产、商业活动和日常生活的各个方面。随之而来的是日益严重的盗版问题。现在,各种
近年来,计算机应用正以各种方式越来越快地渗透到各个领域之中。其中以数据库,尤其是关系数据库的应用最为广泛。关系数据库以集合代数为基础,利用关系模型来建立问题和领域
粒子群优化算法(Particle Swarm Optimization,简称PSO)是一种基于个体进化与群体协作和竞争的随机搜索算法。由于其过程简单明了、易于实现、计算效率高等特点,被公认为可以与遗