论文部分内容阅读
近年来,云计算技术得到迅猛发展,给诸多企业带来商业模式的转变,也给个人带来工作方式的改变。但是,不断发生的云安全事故,常常造成数据丢失的严重后果,给企业和个人带来严重的损失,也阻碍了云计算的广泛推广使用。云计算的安全性和可靠性成为企业和个人关注的焦点。确保数据不丢失,必须首先关注云存储的安全。云存储是云计算的基础,其核心是磁盘。随着磁盘制造工艺进步,磁盘发生故障的概率越来越低。但是,由于云存储中磁盘的数量规模是极其庞大的,云环境下的磁盘故障依然是多发的。磁盘故障多发使用户数据面临风险,磁盘故障率极低又使得故障磁盘的预测和运维人员的维护变得极为困难。自我监测、分析及报告技术(S. M. A. R. T.)是ATA标准规定的各磁盘厂商必须遵循的标准条件之一。它通过监控磁盘运行时的电机、磁头、温度等状态信息,并与磁盘厂商设定的安全阈值相比较来判断磁盘的健康状况。当判断有故障发生时,能自动向用户发出警告,部分甚至会进行简单的自动修复,如自动降速和备份数据等。目前,基于S. M. A. R. T.的阈值判定方法是磁盘厂商普遍采用的故障磁盘预测方法。但是,采用该方法时,故障磁盘的检测率通常为3-10%,故障磁盘检测率过低,实际预警效用不大。当前,基于S. M. A. R. T.预测故障磁盘的研究较少,已建立的模型均基于磁盘厂商的S. M. A. R.T.数据和其它环境等数据,难以应用于实际的用户集群的磁盘故障预测。本文基于实际的用户观测数据,仅仅利用S. M. A. R. T.信息,建立有效的故障磁盘预测模型。本文的主要工作总结如下:(1)研究了磁盘S. M. A. R. T.技术,分析了基于磁盘S. M. A. R. T.数据的故障磁盘预测方法及其研究现状。(2)实现了实际云计算平台的磁盘S. M. A. R. T信息的采集和预处理。(3)利用磁盘维修记录将磁盘状态分类为“正常”和“24小时内即将发生故障”。故障磁盘定义为确认需要进行维修更换的磁盘,确认的时间即为故障发生的时间。(4)针对磁盘实际故障率极低,实验对象是极不平衡的数据集的情况,提出了一种混合的故障磁盘预测方法DKSS。该方法基于实际用户集群的磁盘S. M. A. R. T.数据,综合了聚类、重采样和集成分类器等方法。该方法在模型训练阶段首先通过聚类和重采样来重构数据集,以平衡正负两类样本,再利用支持向量机方法训练学习子分类器,最后对子分类器的预测结果进行投票集成。在模型预测阶段,首先利用聚类方法来缩小样本规模,再利用集成分类器进行预测。(5)采用DBSCAN、K-means、SMOTE和SVM等方法实现了DKSS模型,并对模型的有效性进行了实验验证和预测性能分析。本文的创新点在于:(1)基于实际用户环境,仅仅利用S. M. A. R. T.数据来预测故障磁盘。(2)提出了DKSS混合策略,并应用于故障磁盘预测。实验证明,该方法具有较好的预测性能,并具有较强的泛化能力。