论文部分内容阅读
当前,大规模存储系统普遍采用副本、纠删码等技术来提供高可靠性。随着存储系统规模和复杂性的不断增长,传统的冗余机制难以提供足够的可靠性,构建高可靠性的存储系统成为了巨大的挑战。目前,几乎所有的硬盘都支持SMART故障预测技术。SMART全称为" Self-Monitoring, Analysis and Reporting Technology",它会监控硬盘内部的一些与健康状况相关的属性,如果某个属性值超过了阈值,它就会发出故障预警信息。然而,SMART技术的预测准确率非常有限,仅能在0.1%的误报率的情况下预测出3-10%的硬盘故障。一些研究者研究了基于硬盘的SMART信息,采用统计学和机器学习的方法建立硬盘故障预测模型。然而,这些模型仅能够在保持较低误报率的情况下,预测出60%左右的硬盘故障。本文尝试了改进和优化基于支持向量机(Support Vector Machine, S VM)的硬盘故障预测模型。本文还提出了基于反向传播(Backpropagation, BP)算法的人工神经网络(Artificial Neural Network, ANN)来建立预测模型,并且对该BP-ANN预测模型用AdaBoost算法进行了优化。实验数据集来自实际的数据中心,包含了多达23,395块硬盘的SMART记录。本文采用了新的样本处理、选取方法以及特征构造的方法,提高了模型的预测准确率。本文还提出了一种基于投票的故障检测算法,该方法能够有效降低模型的故障误报率。为了更加准确地描述硬盘的健康程度(即故障概率),本文也尝试了使用BP算法建立硬盘的健康度模型。实验结果显示,本文提出的模型取得了非常好的故障预测性能。优化的SVM模型能够取得最低的误报率(0.03%),而BP-ANN模型则能在保持较低误报率时达到95%以上的故障检测率。本文利用马尔可夫模型计算了不同存储系统的可靠性,结果表明硬盘故障预测模型可以显著提高存储系统的可靠性。此外,本文还初步探索了主动容错机制在实际大规模存储系统中应用的问题。