大规模计算系统的主动故障管理方法

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户:suntow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量. In order to provide stable computing resources to improve the completion rate of grid user jobs, aiming at the stability of HPC system, a method of active fault management is proposed. The implementation of this method can be divided into three steps: Firstly, according to the system operation history Data to extract the set of main fault modes of the system; then real-time monitoring of the system status is realized from the perspective of software and hardware; the fault diagnosis of the system is completed based on the monitoring data; finally, the fault components are isolated according to the diagnosis results, Reduce the impact of the underlying fault on the upper application.This method has achieved good results in a practical production system: the system global failure time interval from the original 8 d to 28 d; fault repair time from the original average of 10 h to 16 min; node failure caused by the proportion of failed jobs from 4.6% to 1.3%. Practice proves that active fault management can reduce system overhead and improve the completion rate of parallel operations deployed to CNGrid nodes on the high-performance computing system can be further improved CNGrid’s service quality.
其他文献
资本市场从来都是螺旋式上升发展,特定阶段存在泡沫实属常态。时代已然不同中国互联网行业基本面已经和前些年不太一样了,上面的空间已经打开。前些年,中国互联网总体上的发
遗忘,就其发生的神经机制不同,可分为短瞬性遗忘、诱导性遗忘、消失性遗忘、泛化性遗忘和双重性遗忘(联想性遗忘)五种.教师应当根据这些遗忘发生的特点,在教学过程中帮助学
我们国家是一个发展中的国家,学校众多,教育事业发展迅速,各种教学设备的需求量大增。而国力财力的有限,使得目前教学仪器的生产还难以很快满足教育发展的需要。在我们河池
世纪之交,世界经济正经历着由资本经济时代到知识经济时代的过渡。知识经济是建立在知识的生产、传播、转移、分配和使用之上的经济。出版社在知识传播中发挥着十分重要的作
移动互联网的大浪潮让整个创业圈都枝桠疯长,但是,却只有很少部分能发出新芽并且茂盛生长。其实,移动互联网的时代改变也在慢慢发酵,只有真正嗅到那些改变的先驱者才能在接下
The treatment of choice for patients with severe alcoholic hepatitis (AH) is use of corticosteroids.Many randomized well designed studies have been reported fro
精神科流行学方法论中最重要的问题之一是在人群中如何系统地收集复杂和多样的信息,或者对这些信息如何分析和分类的问题。对这个问题历史上采取了二个方面的努力。第一是具
每个人都有梦想,作为一个城市也不例外。城市的梦想是在追求以人为本的前提下,使城市变得更智慧便利,更适宜居住,让生活更加美好。2011年,“智慧城市梦想”正式起航。近几年,国家领导人高度重视,相关政策陆续出台,建设投资日益高涨,“智慧热”迅速席卷整个中国。伴随着建设浪潮的不断推进,2014年,无论是智慧城市建设的思路、技术还是服务,都将不断优化创新。而人们也将对智慧城市“以人为本”的内涵有更深入的理
著作权法对科技期刊编辑工作的规范具有重要的意义,它的灵魂与核心不仅存在于科技期刊编辑工作的准则之中,而且为编辑工作——发现确认作品的独创性,并正确、合理地使用、修
编辑同志: 近读贵刊今年第4期“幕后蒙太奇”栏请下载后查看,本文暂不支持在线获取查看简介。 Editor’s Comrades: Recently read your issue No. 4 this year, “Behind t