机群环境下支持文件访问的检查点技术的研究与实现

来源 :中国科学院计算技术研究所 | 被引量 : 2次 | 上传用户:cxxxcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检查点技术可以使应用程序快速恢复至正确状态并减少系统故障带来的计算损失,保证长运算时间作业的可完成性,是提高机群系统可用性的重要手段。为了使应用程序在系统出现故障后能够根据检查点文件恢复并继续正确运行,必须保证所保存和恢复的进程状态信息的完备性和一致性。程序在运行中往往会修改文件内容,但是由于文件内容状态的持续性,可能造成恢复后活动文件内容状态和进程其它状态不一致,进而可能导致程序继续运行时出现错误。因此检查点技术需要提供文件内容的保存和恢复功能,保证文件内容状态与进程其他状态的一致性。本论文以机群系统为研究平台,对机群环境下支持文件访问的检查点技术进行了深入的研究,提出了基于细粒度备份的文件检查点策略,设计和实现了曙光机群系统中的文件检查点系统。论文的主要贡献主要体现在以下几个方面:1.研究了文件检查点系统的设计中的关键问题。在分析对比国内外已有的文件检查点技术的基础上,根据曙光机群系统中应用访问文件的特点,提出了系统级监控、写时拷贝、细粒度备份等关键技术。2.提出了一个核心级文件检查点系统结构框架。系统框架由运行监管、检查点设置和恢复处理三个模块组成。运行监管模块负责在程序正常运行中记录文件的修改情况。检查点设置模块负责在检查点时刻清除文件修改的记录。恢复处理模块负责在出错时利用文件修改的记录恢复文件的内容到上一次检查点时刻末。3.提出了基于细粒度备份的文件检查点技术。这种技术通过将文件从逻辑上分块,仅备份被修改文件数据所在的文件块,可以大大降低数据备份的时空开销。4.设计和实现了曙光机群系统中的文件检查点系统(CSFR),并对其功能和性能进行了分析和评价。该系统以操作系统核心模块方式实现,对应用透明,能够提供文件数据内容恢复功能;配合进程检查点,能够保证文件数据内容与进程其他状态的一致性。实验结果表明,该系统可以支持对运行在LAM/MPI环境下的MPI并行应用程序进行正确的检查点设置和出错恢复的操作。
其他文献
数字水印技术是多媒体数据版权保护的重要方法,近年来得到广泛的研究和关注。数字水印技术由于其不可察觉性、可证明性和健壮性的特点,是后验式身份验证和信息跟踪的有效方法
遗传算法是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法,已经广泛应用于各种领域。但是传统遗传算法在解决规模较大、比较复杂的问题时,存在计
数字家庭是指以计算机、通信和消费电子技术为基础,通过互联互通协议把家庭中的信息设备有机结合成一个整体的智能化网络系统。目前数字家庭标准主要有数字生活网络联盟(DLNA)
Internet现已成为社会重要的信息基础设施之一,它和人们的生活紧密地联系在一起,是人们远距离传递和共享信息的重要媒体。同时,随着计算机技术的发展,价格低廉、体积小巧的各
数据库作为科学研究、电子商务、电子政务、军事等社会各领域的重要信息的载体,其自身安全也越来越受到人们的重视。数据库安全技术包括标识和鉴别、访问控制、信息流控制、推
随着计算机技术和网络技术的飞速发展,网络安全问题也越来越引起人们的关注和重视。入侵检测系统(IDS)可以对系统或者网络资源进行实时检测,及时发现系统或网络的入侵者,也可以
位置管理是移动通信中最重要的问题之一,网络的位置管理方法严重地影响着移动网络的性能。从移动通信诞生起,人们对位置管理方法的研究就一直没有停止。位置管理主要解决移动终
本文总结了目前精确模式串匹配算法的研究现状,介绍并实现了现有的主要高性能算法。这些算法包括单模式精确串匹配算法:KMP算法、BM算法、PK算法和QS算法;多模式精确串匹配算法:A
作为OMG提出的新一代软件开发方法学,MDA(模型驱动架构)将软件开发抽象层次从代码提高到了模型。模型转换技术是实现MDA的关键,其中,PSM(平台相关模型)到代码的转换是模型转换技
复杂仿真系统评估是个动态过程,而复杂仿真系统概念模型评估方法则是评估过程中重要的问题,可以保障复杂仿真系统概念模型能够作为仿真系统开发人员设计和实现复杂仿真系统的重