基于集群系统状态的检查点技术的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zb_lion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今社会的发展,各种应用领域对计算能力的要求越来越高,集群作为一种有效可扩展的并行计算的形式得到了广泛的应用。很多集群系统被应用在国计民生的重要领域,集群的规模也在不断扩展。随着集群系统规模的扩展,其出现故障的几率也成指数级增长,所以,集群系统的容错性能成了衡量集群性能的重要指标。检查点设置卷回恢复技术作为一种并行系统中有效的容错方式,在目前的集群系统中得到广泛的应用。本文系统地介绍了集群系统的概念及容错的相关技术,着重介绍了检查点设置卷回恢复技术。分析了当前国内外常见的减少检查点开销的方法。除了用户参与法和编译器辅助内存排除法是真正的减少了检查点的文件大小,从本质上减小了检查点需要保存的进程运行状态。其它方法都是在实际需要保存进程运行状态一定的情况下,从不同侧面减小需要保存的文件大小或者提高检查点和程序的并行性来减少检查点卷回恢复的开销。文章中提出了通过监控系统的当前状态来设置检查点的方法,即在系统状态小的时刻进行设置检查点操作,这样能从根本上减少检查点文件的大小,并克服了原有算法破坏检查点操作透明性的缺点,实验证明这种方法能有效减少检查点开销。文章详细地介绍了基于监控系统状态的设置检查点方法,以及在基于PVM和Linux的集群系统上的实现。由于用户进程在PVM上的运行特点,使得保存检查点工作分别要保存用户进程作为操作系统普通进程的状态和作为PVM任务的状态。系统中采用在设置检查点时刻先退出PVM,再重新加入PVM的方式实现检查点的保存。
其他文献
随着Internet的快速发展,Web已经发展成为一个巨大的、分布式的和共享的信息资源。目前Web数据大都以HTML页面的形式出现。由于HTML描述的数据是一种半结构化的数据,这使得由
在国家公安部、科技部多次提出“科技强警”的大环境下,融入高新技术及整合、共享基础建设中的各类资源库和信息系统的信息资源,实现“人、案、物、地、机构五要素”联动已成为
为了充分发挥集群计算的优势,需要对计算资源进行高效的管理。集群作业管理系统正是为适应这种要求而出现并快速发展起来的。它可以根据用户的需求,统一管理和调度集群的软硬件
在纺织、化工、食品、水处理等行业中普遍使用了大量的传感器、执行器和控制器等来完成工业现场流程的监控和自动化。随着工厂生产自动化和管理信息化发展的要求,如何对这些
随着科技的发展,移动终端设备得到了普及。移动终端时时与网络交互数据信息,导致网络上的图片呈现爆炸式的增长。这些图片无序、散落在世界的各个地方,但是人们对这些图片分
近几年以来,视景仿真相关的研究与应用越来越受到广泛的关注。水下视景仿真是海军未来发展的需要,也是海军实现数字化建设的重要内容,水下视景仿真成为目前研究的一个热点。
Ad Hoc网络是由一组带有无线通信收发装置的移动终端组成的一个多跳、自组织、无中心的网络。并以其高度的灵活性在军事、民用和各种不易建设固定通信设施的环境中有着广泛的
随着计算机技术发展和应用的日益广泛,企业积累了大量以不同形式存储的电子数据,这些数据主要以关系型数据库、Excel文件和XML文件等格式存储,构成了企业的信息数据资源。对
遗传算法是模拟生物界的进化过程而产生的一种现代优化算法,作为一种有效的随机搜索方法,在优化方法中具有独特的优越性,有着非常重要的理论意义和广泛的应用领域。传统优化
产品感性意象信息的获取是产品开发过程中不可或缺的一个环节,对于设计师而言,若能准确把握消费者对于产品的感性意象,将有助于概念设计阶段的产品定位,并能保证感性意象通过