论文部分内容阅读
随着数据中心中存储系统规模的极速增长,原本偶然发生的磁盘故障逐渐变为常态。为提高存储系统可靠性,国内外研究人员基于统计和机器学习的方法使用SMART(Self-Monitoring,Analysis and Reporting Technology)特征建立了许多磁盘故障预测模型,并取得了较好的预测性能。然而,这些工作大都是在离线模式下训练模型,没有考虑磁盘SMART属性分布规律随时间变化的影响,无法很好地拟合未来的数据模式,使模型在长期实际应用中预测性能会逐渐衰退,出现“模型老化”现象。基于在线学习方法,设计实现的具有自适应性的在线故障预测系统,能避免预测性能的衰退问题,提高故障预测模型的实用性。运用在线学习方法对磁盘故障进行预测会面临以下挑战:1)如何在线地对陆续收集的SMART样本进行标记?2)如何克服正负样本不平衡对预测模型性能的影响?针对前者,提出了样本自动在线标记方法。该方法根据磁盘故障状态,实时地对SMART样本进行标记,作为训练数据输入到在线学习模型进行模型更新。其次,对online bagging方法进行改进,通过使用两个不同参数的泊松分布函数分别作用在实时的正负样本之上,使得负样本相对正样本具有更小的概率被选中而实际地用于模型更新。考虑到在线随机森林(Online Random Forests,ORFs)具有可并行性、低内存需求以及更好的预测性能等优点,在线磁盘故障预测系统基于ORF实现。实验表明基于ORF的在线预测模型能够快速逼近离线随机森林(Random Forest,RF),并在低误报率(False Alarm Rates,FARs)前提下实现稳定于93-99%间故障检出率(Failure Detection Rates,FDRs)。相较于进行离线更新的RF模型,ORF模型能够在实现近似相同的FDR时维持更低的FAR,并且无需每隔一段时间重新训练一个新的模型。因此,基于ORF的在线学习方法适用于实际的长期使用。