集群系统中并行计算的高可用管理

来源 :第十三届全国容错计算学术会议 | 被引量 : 0次 | 上传用户:l7610237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在并行和分布式计算环境中,随着系统规模的增长,系统出错的概率大大增加。为提高集群系统的可靠性和可用性,针对并行计算环境的特点,在利用改进型检查点迁移机制的基础上,分析了集群系统中并行计算高可用管理的关键技术,给出了高可用管理模块的实现方法,可实现集群系统中计算节点的故障自探测、任务自恢复功能。通过验证,证明了该方法的有效性。
其他文献
EDA技术的广泛应用大大缩短了电子产品的开发周期,实现了硬件设计的软件化,降低了成本。在分析逻辑分析仪工作原理的基础上,讨论了其触发电路模块的工作原理及其FPGA的实现方法,
为了解我县农村集中式供水卫生状况,找出存在的主要卫生问题,以提高自来水水质,防止水源性疾病的发生,1999年对全县农村自来水厂进行了卫生学调查和水质监测。1内容与方法1.1制定统一调查
本文提出了一种小波变换、遗传算法与神经网络相结合的模拟PCB测试新方法及其软硬件的实现。这种测试方法使用小波作为消噪工具,对信号进行消噪和小波多尺度分解,进行归一化处
会议
为了提高自恢复控制器特别是其令牌寄存器对软错误的容忍能力,本文提出了基于双模冗余令牌的DMR—Token 自恢复结构。该结构对令牌寄存器进行了双模冗余加固,当状态寄存器发生
总线控制器是1553B总线通讯的单故障点,对于高可靠、强实时需求的1553B总线控制系统,需要进行总线控制器的自主式容错设计。本文采用单总线机内三冗余方案解决了总线控制器在强
会议
针对三模冗余软件容错系统在采用标准的多数表决算法时,存在表决正确率低的问题,本文提出一种对多数表决器改进的方法。方法是在多数表决器处于无法表决的环节时加入中值表决算
为提升飞行器控制系统核心装置飞控计算机的可靠性,研究了一种针对飞控计算机瞬时故障恢复技术,详细介绍了瞬时故障恢复技术的机理、总体设计方案以及软硬件协同设计,并通过试验
目的:观察中期(4周)尾部悬吊大鼠在立位应激下的心血管反应。方法:采用本实验室改进的尾部悬吊方法,利用头高位倾斜和下体负压模拟立位应激,通过股动脉插管和心电图记录检测
计算结构与应用算法的匹配性越好,其性能和计算效率就越高。可重构计算兼有软件的灵活性和ASIC的优越性能,将可重构技术和DSP处理器相结合可使单DSP处理器性能得到很大提升。本
会议
多维交叉开关网络具有多种网络的结构特性,可模仿格栅、超立方体以及K元N树等网络结构,对相关应用有较好的适应性,但其也具有格栅类网络的结构容错性差的特点。本文通过研究多维