基于在线学习的磁盘故障预测技术

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chengrui12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据中心中存储系统规模的极速增长,原本偶然发生的磁盘故障逐渐变为常态。为提高存储系统可靠性,国内外研究人员基于统计和机器学习的方法使用SMART(Self-Monitoring,Analysis and Reporting Technology)特征建立了许多磁盘故障预测模型,并取得了较好的预测性能。然而,这些工作大都是在离线模式下训练模型,没有考虑磁盘SMART属性分布规律随时间变化的影响,无法很好地拟合未来的数据模式,使模型在长期实际应用中预测性能会逐渐衰退,出现“模型老化”现象。基于在线学习方法,设计实现的具有自适应性的在线故障预测系统,能避免预测性能的衰退问题,提高故障预测模型的实用性。运用在线学习方法对磁盘故障进行预测会面临以下挑战:1)如何在线地对陆续收集的SMART样本进行标记?2)如何克服正负样本不平衡对预测模型性能的影响?针对前者,提出了样本自动在线标记方法。该方法根据磁盘故障状态,实时地对SMART样本进行标记,作为训练数据输入到在线学习模型进行模型更新。其次,对online bagging方法进行改进,通过使用两个不同参数的泊松分布函数分别作用在实时的正负样本之上,使得负样本相对正样本具有更小的概率被选中而实际地用于模型更新。考虑到在线随机森林(Online Random Forests,ORFs)具有可并行性、低内存需求以及更好的预测性能等优点,在线磁盘故障预测系统基于ORF实现。实验表明基于ORF的在线预测模型能够快速逼近离线随机森林(Random Forest,RF),并在低误报率(False Alarm Rates,FARs)前提下实现稳定于93-99%间故障检出率(Failure Detection Rates,FDRs)。相较于进行离线更新的RF模型,ORF模型能够在实现近似相同的FDR时维持更低的FAR,并且无需每隔一段时间重新训练一个新的模型。因此,基于ORF的在线学习方法适用于实际的长期使用。
其他文献
<正>STEM(Science、Technology、Engineer、Math)教育起源于美国,旨在大力培养有素的数学家、科学家、工程师、技术人员和具备科学素养的公民。它不仅仅是科学、技术、工程、
短波通信以天波传播为主,在非协作远距离无线通信领域具有其它通信手段无法替代的地位,是战略通信网和应急后备通信系统的重要支撑。基于摩尔斯码的短波无线通信系统具有信号
公允价值计量模式,自其产生之日起,便以其高度的相关性收到投资者等会计信息使用者的青睐,然而自2008年金融危机爆发以来,公允价值会计信息质量的可靠性饱受质疑。影响公允价
<正>储蓄国债在英美等西方国家已经有很多年历史,虽然其占有的投资市场份额并不大,但由于其品种设计能够满足本国个人投资者的需要、降低发行人的筹资成本而仍存在较大的发展
本报讯(记者 叶桂华 通讯员叶余华 陆爱平)从本月起,泰兴市将对政府投资工程项目实施标后监督管理,制止转包、违法分包、挂靠等违法行为。$$   据了解,当前,国内大部分工程招
报纸
<正> 吴组织先生的“儒林外史的思想与艺术”,发表在“人民文学”一九五四年八月号,这是一篇全面地分析“儒林外史”的文章。这篇文章有一些优点,对读者的了解“儒林外史”是
采用热重分析方法研究纯聚乙烯、阻燃聚乙烯在空气气氛中的热降解行为,并采用Kissinger法和F1ynn—Wall Ozawa(FWO)法计算其热降解动力学参数。计算结果表明,阻燃聚乙烯的活化能
为明确在不同磷浓度及氮磷比(N/P)的协同影响下蛋白核小球藻(Chlorellapyrenoidosa)的生长和氮磷吸收特性,文章将微藻培养液中的磷酸盐浓度设为0.50mg&#183;L–1、0.25mg&#18
目的研究12种中药配方颗粒对耐青霉素肺炎链球菌、耐甲氧西林金黄色葡萄球菌和产超广谱β-内酰胺酶(ESBLs)大肠埃希菌等6种耐药菌的抗菌效果。方法测定12种中药的最低抑菌浓