论文部分内容阅读
在现代存储系统中,磁盘故障是制约系统稳定性的最主要因素之一。磁盘故障会导致用户数据丢失损坏,系统读写性能降低,严重时还会导致系统故障。因此,如何尽早预测出磁盘故障是提升系统性能的关键。由于机器学习在分类问题上具有突出表现,使用机器学习来预测磁盘故障是目前最主流的方法。但是,大部分研究者在用机器学习算法进行预测的时候,采用的磁盘健康度评估方法仍然是较为简单的线性策略,这种策略对于负荷状况不稳定的磁盘预测能力有限。此外,大多数研究者也没有关注磁盘SMART数据的时序性问题,传统的机器学习分类模型相对简单,是浅层学习,因此对于预测结果没有很好的提升。因此,磁盘健康度评估和数据时序性问题是目前亟待解决的两个问题。为了解决上述磁盘故障预测过程中出现的问题,本文根据现有的研究情况,从以下几个方面进行了研究:(1)本文提出了一种基于SMART数据欧式距离的健康度评估策略。为了能充分利用SMART数据中产生的波动,该策略基于SMART数据的欧氏距离,再引入一个随时间变化的单调函数,并入训练集作为结果进行训练。使得大多数深度学习方法使用本策略时,对于磁盘故障的预测率均有提升,并解决了磁盘有突变性负荷时产生的波动问题。(2)本文提出了一种基于LSTM神经网络的磁盘故障预测模型。首先,通过基于信息增益比率的特征选择策略对SMART数据进行筛选,之后建立基于LSTM的神经网络模型。通过使用该模型,可以有效的利用磁盘SMART数据的时序性,之后与多种机器学习模型的对比证明了本文提出的模型具有良好的适用性。本文采用了百度的开源数据集和Backblaze的开源数据集,实验结果验证了本文提出的健康度评估策略和预测模型的有效性。(3)本文建立了一个基于深度学习的磁盘故障预测的原型系统。该系统具有定时采集数据,定期更新模型,发生故障时可以向运维人员发送警报等功能。本文详细介绍了该原型系统中各个模块间的关系以及在此过程中经常碰到的一些问题,可供后续的研究者参考。最后,本文总结了目前所做的工作,并对未来磁盘预测的相关工作进行了展望,供后来的研究者参考。