大规模计算系统的主动故障管理方法

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户：suntow

【摘要】

：

为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出

【作者】

：

武林平罗红兵艾志玮沈岳

【机构】

：

北京应用物理与计算数学研究所计算中心,北京城市学院公共管理学部,

【出处】

：

华中科技大学学报(自然科学版)

【发表日期】

：

2010年S1期

【关键词】

：

故障管理计算系统网格用户节点故障网格计算环境中国国家网格故障隔离实时监控历史数据网格节点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量. In order to provide stable computing resources to improve the completion rate of grid user jobs, aiming at the stability of HPC system, a method of active fault management is proposed. The implementation of this method can be divided into three steps: Firstly, according to the system operation history Data to extract the set of main fault modes of the system; then real-time monitoring of the system status is realized from the perspective of software and hardware; the fault diagnosis of the system is completed based on the monitoring data; finally, the fault components are isolated according to the diagnosis results, Reduce the impact of the underlying fault on the upper application.This method has achieved good results in a practical production system: the system global failure time interval from the original 8 d to 28 d; fault repair time from the original average of 10 h to 16 min; node failure caused by the proportion of failed jobs from 4.6% to 1.3%. Practice proves that active fault management can reduce system overhead and improve the completion rate of parallel operations deployed to CNGrid nodes on the high-performance computing system can be further improved CNGrid’s service quality.

其他文献

溯源10亿美元时代

资本市场从来都是螺旋式上升发展,特定阶段存在泡沫实属常态。时代已然不同中国互联网行业基本面已经和前些年不太一样了,上面的空间已经打开。前些年,中国互联网总体上的发

期刊

螺旋式上升往前走资本市场特定阶段报复性反弹周鸿祎赶集网网络效应优酷腾讯

浅谈教师在学生克服遗忘过程中的作用

遗忘,就其发生的神经机制不同,可分为短瞬性遗忘、诱导性遗忘、消失性遗忘、泛化性遗忘和双重性遗忘(联想性遗忘)五种.教师应当根据这些遗忘发生的特点,在教学过程中帮助学

期刊

短时记忆教学过程迅速性神经机制联想性瞬时记忆泛化性信息联系储存信息神经冲动

自制仪器,上好实验课

我们国家是一个发展中的国家,学校众多,教育事业发展迅速,各种教学设备的需求量大增。而国力财力的有限,使得目前教学仪器的生产还难以很快满足教育发展的需要。在我们河池

期刊

教学设备物理现象教育事业教育发展自制教具学习过程概括总结竖直平面思维能力思维过程

论大学出版社的出书特色

世纪之交,世界经济正经历着由资本经济时代到知识经济时代的过渡。知识经济是建立在知识的生产、传播、转移、分配和使用之上的经济。出版社在知识传播中发挥着十分重要的作

期刊

知识经济时代编辑人员世界经济编辑队伍资本经济教学科研成果作者队伍图书内容精品图书科技出版社

中国(南京)软件谷联手黑马大赛深剖下一个创业先机

移动互联网的大浪潮让整个创业圈都枝桠疯长,但是,却只有很少部分能发出新芽并且茂盛生长。其实,移动互联网的时代改变也在慢慢发酵,只有真正嗅到那些改变的先驱者才能在接下

期刊

创业家信息服务行业古都南京互联网经济饕餮盛宴日至赶集网东软集团就是你冲出重围

Corticosteroids and pentoxifylline for the treatment of alcoholic hepatitis:Current status

The treatment of choice for patients with severe alcoholic hepatitis (AH) is use of corticosteroids.Many randomized well designed studies have been reported fro

期刊

alcoholicsteroidsamongstdiscriminantadministrationsepsissatisfactorymodal

朝文版DIS.Ⅲ的开发

精神科流行学方法论中最重要的问题之一是在人群中如何系统地收集复杂和多样的信息,或者对这些信息如何分析和分类的问题。对这个问题历史上采取了二个方面的努力。第一是具

期刊

流行学检查表朝文DIS心理测验信度检验躯体疾病诊断项目情感性疾病躯体化障碍

智慧城市开启生活新梦想

每个人都有梦想，作为一个城市也不例外。城市的梦想是在追求以人为本的前提下，使城市变得更智慧便利，更适宜居住，让生活更加美好。2011年，“智慧城市梦想”正式起航。近几年，国家领导人高度重视，相关政策陆续出台，建设投资日益高涨，“智慧热”迅速席卷整个中国。伴随着建设浪潮的不断推进，2014年，无论是智慧城市建设的思路、技术还是服务，都将不断优化创新。而人们也将对智慧城市“以人为本”的内涵有更深入的理

期刊

城市经济国家领导人区域平衡交通运输现代化城市资源展望未来数字技术远程通信技术大城市优化创新

著作权法对编辑工作的制约与规范

著作权法对科技期刊编辑工作的规范具有重要的意义,它的灵魂与核心不仅存在于科技期刊编辑工作的准则之中,而且为编辑工作——发现确认作品的独创性,并正确、合理地使用、修

期刊

编辑工作科技作品智力创作著作权制度机械复制权精神权利删改权科学研究成果引用数稿件取舍

旧照索隐

编辑同志: 近读贵刊今年第4期“幕后蒙太奇”栏请下载后查看，本文暂不支持在线获取查看简介。 Editor’s Comrades: Recently read your issue No. 4 this year, “Behind t

期刊

索隐龚稼农电影画刊王献斋高占非假桃花卷第湛山四十年代摄影者

大规模计算系统的主动故障管理方法

与本文相关的学术论文