面向超级计算机的故障预测和容错关键技术研究

来源 :国防科学技术大学 | 被引量 : 3次 | 上传用户:liu_da_shi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模科学计算需求的不断增长推动着超级计算机系统快速发展。随着系统规模的增大,其组成部件不断增加、软硬件结构日益复杂、工作模式快速变化,超级计算机系统平均无故障时间越来越短,可靠性问题日益突出。现有容错技术由于效率不高,已经无法适应超级计算机系统规模和并行应用规模快速增长的需要。本文针对超级计算机系统面临的可靠性挑战,以提高大规模并行应用在系统频繁故障环境下的运行效率为目标,对主动容错和被动容错相结合的容错技术展开一系列研究,取得了如下创新成果:1.提出了用于故障预测的数据采集方法——DDC针对现有数据采集方法数据属性采集不全,数据传输和保存开销大的问题,我们面向未来Exascale超级计算机提出了分布式数据采集方法DDC。该方法在数据采集过程中,将轻量级进程分散在各个采集结点上,不仅使得数据采集开销小、灵敏度高,而且能够充分满足实时性的要求。在数据汇集方面,我们首先提出了一种多层分组数据汇集方法,该方法不仅能够保证获取结点故障前的关键状态数据,而且可以有效利用高速互连网络资源以节省I/O资源消耗。为进一步降低数据汇集开销,在多层分组汇集方法的基础上,我们又提出了环形数据汇集方法,将计算结点按照一定规则分组,以组为单位组内结点采用类似环形链表的方式进行组织,仅传输故障结点故障前固定时长的状态数据和部分正常结点的状态数据,进一步减少了网络和存储开销。实验结果表明,DDC数据采集方法避免了大量无效数据的传输,数据采集开销小,实时性好,且同时具备良好的可扩展性,可满足在系统规模不断扩大的情况下进行故障预测数据采集的需要。2.提出了基于属性选择和集成数据流挖掘的在线故障预测技术——FSoE针对现有超级计算机故障预测方法准确率低,无法满足大规模系统主动容错需要的情况,本文提出了基于属性选择和集成数据流挖掘的在线故障预测方法FSoE。FSoE包括两部分功能,数据属性选择和在线故障预测。首先,我们提出了FSFW数据属性选择方法,在对DDC采集到的原始数据除冗去噪的基础上,采用过滤式和封装式相结合的方式进行数据属性选择,过滤式方法将互信息和距离度量相结合对数据属性进行类别相关度排序,封装式方法以SVM分类器精度作为评价指标,在过滤式属性排序的基础上,完成属性子集的快速选择。其次,在数据属性选择的基础上,我们提出在线集成数据流挖掘预测方法GAE,该方法以SVM作为基分类器,采用基于分类相似度的分组方法组成最优分类器子集进行实时结点样本状态分类,并采用移动窗口方法预测结点的未来运行状态。实验结果表明,经过FSFW属性选择,分类器分类精度有效提升。采用GAE集成数据流挖掘预测方法与现有典型集成预测方法相比具有更高的预测精度。通过基于结点硬件环境状态数据和系统运行状态数据双数据源的FSoE预测系统的叠加预测,取得了良好的结点故障预测效果。3.提出了主动容错和被动容错相结合的容错方法——FTRP当前并行计算系统规模不断增大,故障发生频度逐渐增加,针对现有被动容错方法容错开销较大,严重影响了并行应用运行性能和可扩展性的问题,本文提出了一种新的主动容错和被动容错相结合的容错框架FTRP。FTRP通过建立WM开销模型,并借助故障预测结果,可自适应选择容错机制,从而能够最大限度减少故障对应用运行的影响。基于对超级计算机运行的观察、分析和实验,我们发现了超级计算机故障局部性特性,并基于该特性提出了一种新的容错方法PRP2。PRP2方法不仅提供进程复制机制,而且提供进程预取机制,因而不仅能够保护被正确预测出即将故障的结点上的进程,而且能够对未被预测出的故障结点的进程提供预取保护机制,因此能够从更大程度上避免故障结点的影响,提高主动容错的效率。FTRP提供了主动容错和被动容错互补结合的新模式,能够有效利用主动容错和被动容错机制的优点,并避免各自缺陷,提高在故障频发情况下大规模并行系统的应用运行性能。基于实际系统故障trace的模拟实验结果显示,FTRP框架显著优于现有主要的容错机制。4.提出了基于存储受限加速比和存储墙的checkpointing容错技术可扩展性分析模型Checkpointing技术是目前使用最为广泛的超级计算机容错技术,但频繁的checkpoint保存操作会带来巨大的I/O开销,特别是未来Exascale级计算需求下,checkpointing开销会对大规模并行应用的性能和可扩展性产生严重的束缚。本文从可扩展性的角度,重点度量checkpointing技术的数据保存开销对应用可扩展性的影响。我们在对checkpointing机制带来的I/O开销进行分析的基础上,提出存储受限加速比和存储墙模型,该模型从存储性能的角度对并行应用的可扩展性进行定量建模,并分析了在不同存储系统结构下的并行应用存储墙特性,最后基于天河-1A(TH-1A)和美洲虎(Jaguar)超级计算机进行实验和分析,利用存储受限加速比和存储墙模型定量揭示了checkpointing技术对并行应用可扩展性的影响,验证了checkpointing技术的关键因素对并行应用可扩展性的影响特性,实验结论对主动容错和被动容错相结合的容错技术研究提供了有益的指导。
其他文献
<正>20世纪90年代中期,东盟开始加大各国知识产权领域的合作以消除成员国之间的贸易障碍。1995年12月15日,东盟各国在泰国曼谷通过了《东盟关于知识产权保护合作的框架协议》
药房是一个面向社会服务的重要窗口,其主要职责是给患者合理调配药物,确保处方质量能够有效治疗患者的相应症状,提高临床治疗效果。近年来,随着国家医疗技术的快速提升,西药
目的癌症是全球死亡率最高的疾病,其引起死亡的主要原因是肿瘤细胞的侵袭及转移,所以对肿瘤转移的早期监测具有重要的临床价值。血液中的循环肿瘤细胞包含大量的肿瘤表型信息
现代服装结构设计主要实现的是把设计师的意图利用立体空的的基本想象,运用服装结构设计的基本方法实现服装的立体到平面板型的转化,在这个转化过程中,培养立体思维是极其重
目的:探讨冠状动脉疾病(coronary artery disease,CAD)患者血浆微小RNA-214(microRNA-214,miR-214)水平特点,分析其与CAD患者发病时间和冠状动脉狭窄程度的相关性,为其成为新
第一部分CT能谱成像在胃腺癌分化程度评估中的应用价值目的:探索并讨论CT能谱成像(GSI)在评估胃腺癌分化程度中的应用价值。材料与方法:搜集经手术病理证实且术前均行宝石CT
砖雕是我国民间一门独特的传统建筑雕刻艺术。建筑是凝固的音乐,而砖雕则是这一凝固音乐中最美妙、最动人、最充满意境与情感的旋律和乐章。砖雕是依附于建筑而生存的,而建筑
在"文化走出去"战略中,需要传播独具民族文化特色的信息。中西语言文化的差异对跨文化对外传播的效果起到重要影响作用。本文以中部地区核心地位的湖北省地方民歌歌词翻译为
技术转移平台是科技成果转移转化的公共服务平台。本文分析了中国—东盟技术转移平台建设的需求情况,提出了中国—东盟技术转移平台建设的策略及平台的发展模式,对中国更好地
[目的]分析我院2004年7月至2015年12月诊治的及国内外近10年报道的原发骨恶性淋巴瘤(PBL)资料,探讨其临床、病理特点及预后相关因素。[方法]收集我院诊治的45例PBL患者资料(