基于在线机器学习的高性能计算机故障预测技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:wa0002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
应用需求的日益增长促进高性能计算机迅速发展,随着系统规模日益增大,高性能计算机组件数量迅速增加,系统的平均无故障时间越来越短,可靠性问题日益突出。原有的基于Checkpoint的高性能计算机被动容错方法已无法满足其可靠性需求,基于故障预测的主动容错是未来提高高性能计算机可靠性的重要容错策略。现有的高性能计算机故障预测技术基本为离线批量式学习方法,预测准确度低,动态性差,不能满足未来高性能计算机的应用需求,因此迫切需要一种高效在线式故障预测方法,能够对故障数据进行在线学习,实时准确地预测即将发生的故障,从而能够在故障发生之前实施低开销的主动容错,提高系统的可用性。本文以“天河一号”超级计算结点运行状态数据集为基础,对状态数据的预处理技术和超级计算机结点故障预测技术进行研究。在数据预处理方面,主要通过特征选择对“天河一号”超级计算结点运行状态数据集进行精简,剔除与故障预测不相关及冗余的特征。本文基于传统最大相关-最小冗余特征选择方法mRMR提出多准则赋权排序和SVM相结合的特征选择算法mCRC。mRMR是目前运行效率及分类准确率综合效果较好的一种特征选择方法,但其只基于互信息度量特征与类别及特征与特征之间的关系,具有片面性。论文提出的mCRC算法结合互信息和类别可分性两种度量方式分析三者之间的关系,提高了分类准确率;同时mCRC算法通过改进的前向浮动搜索方法搜索最佳特征子集,克服了mRMR算法中没有明确说明如何确定最终特征子集的弊端。实验结果显示,在“天河一号”结点状态数据集上,mCRC算法的分类准确率相比mRMR算法提高了1%左右,而mCRC算法的最终特征子集大小相比于mRMR算法的最终子集减小了22%,这表明mCRC算法能够选择出数目更少、分类效果更好的特征子集,同时减轻了系统状态数据的采集、存储和通信开销。在故障预测方面,本文提出一种基于在线机器学习的高性能计算机故障预测方法。该方法采用集成式数据流挖掘技术对状态数据进行在线学习,并利用学习的结果对结点状态进行故障预测,判定该结点是否即将发生故障。在集成式数据流分类方法中,一种具有回忆与遗忘机制的数据流挖掘算法MAE在预测精度和稳定性上相对于其他传统集成式数据流分类算法具有显著优势,并能缓解类别不均衡问题带来的影响,对于类别严重不均衡应用,MAE算法仍然存在对数据块的学习困难,预测精度低的问题。而“天河一号”结点大部分时间处于正常运行状态,采集到的即将故障数据只占少数比例,考虑到结点状态数据集的类别严重不均衡问题,本文基于MAE算法提出一种考虑类别不均衡分布的数据流分类算法ReMAE。实验证明,相比于MAE算法,ReMAE算法虽然整体分类精度下降,但其召回率比MAE算法高37%,表明ReMAE算法对即将故障数据的识别精度更高,对于高性能计算机故障预测来说,ReMAE算法对真实故障的预测率更好,因此,相比于MAE算法,ReMAE算法更适合“天河一号”结点状态数据的故障预测。
其他文献
<正>为贯彻落实好党的十八届四中全会审议通过的《中共中央关于全面推进依法治国若干重大问题的决定》(以下简称《决定》)关于"对财政资金分配使用、国有资产监管、政府投资
目的探讨控制高血压饮食模式(DASH)对正常高值或1级高血压人群血尿酸(SUA)的影响。方法63例参试者分为DASH膳食指导干预(n=28)和继续对照饮食(n=35)。问卷调查参试者膳食结构
锥形束断层成像CBCT(Cone-Beam Computerized Tomography),使用锥形束X射线对物体进行照射,得到投影数据,再通过特定的重建算法,便可重建出物体的内部结构。然而过多的射线辐
<正>所谓创新教育就是使整个教育过程被赋予人类创新活动的特征,并以此为教育基础,达到培养创新人才和实现人的全面发展为目的的教育.高中化学立足于九年义务教育的基础,注意
在现代有机合成中,脂肪族C-H键的硝基化反应是一类具有挑战性的课题,尤其是羰基化合物α-位的C(sp~3)-H键的硝基化反应。我们以廉价易得的铜盐作为添加剂,以硝酸铈铵为硝基化
随着中国综合实力日益提升,越来越多的人开始走近中国,了解中国文化。第四届中俄博览会期间,黑龙江旅游职业技术学院为独联体国家参访团召开民俗文化讲座,笔者有幸承担了该讲
铋系半导体材料作为新型可见光催化剂,因其具有较窄的禁带宽度以及良好的可见光吸收活性的等优点而被广泛的研究。本文以黄铁矿为前驱体,利用水热-煅烧法制备了一系列的黄铁
电梯作为一种由机械构成的运输设备,在为出行提供便利的同时,也存在着一定的安全问题,目前这些问题已被人们所重视。电梯制动器作为电梯组成的重要部件,其功能失效会带来很多
意大利人文主义者对文艺复兴思想的传播和欧洲文化的发展起到了极其重要的推动作用。文艺复兴运动诱发了宗教改革,在音乐上,开创了以人和自然为主体的现实主义创作手法,形成了以
箱形梁桥式起重机的主梁优化设计效果显著,尤其是在减轻主梁自身重量方面。然而,在实际工程的优化设计中,理论方案应用普遍性不高。本文通过对箱形梁桥式起重机主梁的结构分