论文部分内容阅读
应用需求的日益增长促进高性能计算机迅速发展,随着系统规模日益增大,高性能计算机组件数量迅速增加,系统的平均无故障时间越来越短,可靠性问题日益突出。原有的基于Checkpoint的高性能计算机被动容错方法已无法满足其可靠性需求,基于故障预测的主动容错是未来提高高性能计算机可靠性的重要容错策略。现有的高性能计算机故障预测技术基本为离线批量式学习方法,预测准确度低,动态性差,不能满足未来高性能计算机的应用需求,因此迫切需要一种高效在线式故障预测方法,能够对故障数据进行在线学习,实时准确地预测即将发生的故障,从而能够在故障发生之前实施低开销的主动容错,提高系统的可用性。本文以“天河一号”超级计算结点运行状态数据集为基础,对状态数据的预处理技术和超级计算机结点故障预测技术进行研究。在数据预处理方面,主要通过特征选择对“天河一号”超级计算结点运行状态数据集进行精简,剔除与故障预测不相关及冗余的特征。本文基于传统最大相关-最小冗余特征选择方法mRMR提出多准则赋权排序和SVM相结合的特征选择算法mCRC。mRMR是目前运行效率及分类准确率综合效果较好的一种特征选择方法,但其只基于互信息度量特征与类别及特征与特征之间的关系,具有片面性。论文提出的mCRC算法结合互信息和类别可分性两种度量方式分析三者之间的关系,提高了分类准确率;同时mCRC算法通过改进的前向浮动搜索方法搜索最佳特征子集,克服了mRMR算法中没有明确说明如何确定最终特征子集的弊端。实验结果显示,在“天河一号”结点状态数据集上,mCRC算法的分类准确率相比mRMR算法提高了1%左右,而mCRC算法的最终特征子集大小相比于mRMR算法的最终子集减小了22%,这表明mCRC算法能够选择出数目更少、分类效果更好的特征子集,同时减轻了系统状态数据的采集、存储和通信开销。在故障预测方面,本文提出一种基于在线机器学习的高性能计算机故障预测方法。该方法采用集成式数据流挖掘技术对状态数据进行在线学习,并利用学习的结果对结点状态进行故障预测,判定该结点是否即将发生故障。在集成式数据流分类方法中,一种具有回忆与遗忘机制的数据流挖掘算法MAE在预测精度和稳定性上相对于其他传统集成式数据流分类算法具有显著优势,并能缓解类别不均衡问题带来的影响,对于类别严重不均衡应用,MAE算法仍然存在对数据块的学习困难,预测精度低的问题。而“天河一号”结点大部分时间处于正常运行状态,采集到的即将故障数据只占少数比例,考虑到结点状态数据集的类别严重不均衡问题,本文基于MAE算法提出一种考虑类别不均衡分布的数据流分类算法ReMAE。实验证明,相比于MAE算法,ReMAE算法虽然整体分类精度下降,但其召回率比MAE算法高37%,表明ReMAE算法对即将故障数据的识别精度更高,对于高性能计算机故障预测来说,ReMAE算法对真实故障的预测率更好,因此,相比于MAE算法,ReMAE算法更适合“天河一号”结点状态数据的故障预测。