论文部分内容阅读
随着云计算技术的迅猛发展,云服务得到广泛应用。在大规模分布式云计算平台中,由于软硬件故障、节点失效、作业调度资源不足等原因,导致作业无法正常完成,造成的资源浪费现象更为严重,因此,进行作业故障预测的研究,对于提高资源利用率有着重要的意义。常见故障预测研究有软/硬件故障预测、系统故障预测等。作业失败状态的预测是软件故障预测的一个方面。传统的故障预测技术进行分析存在一定缺陷,随着人工智能技术的发展,机器学习方法越来越多地被应用于失败作业预测。 本文以大型异构并行计算的Google云集群数据集为研究对象,统计分析失败作业的属性,使用支持向量机模型和在线极限学习机模型对作业的终止状态进行主动预测。主要工作和贡献如下: (1)统计了Google云集群作业的完成情况,并分析了导致作业各种终止状态的影响因素,在此基础上,提出将影响作业终止状态的特征划分为静态特征和动态特征。针对云平台频繁的作业失败现象,提出了使用支持向量机模型,主动预测作业终止状态。该方法使用作业的静态特征和动态特征作为作业的特征向量。实验结果显示,该方法预测作业终止状态的精确率达到95%。 (2)针对实际应用中数据是流式到达的,提出使用在线序列极限学习机模型进行在线失败作业预测的方法。该方法根据作业到达顺序,批量取数据,使用该批数据进行作业状态预测并更新模型。实验结果显示,使用在线序列极限学习机模型能够在0.01s内完成模型更新,并以93%的准确预测出作业的终止状态。 (3)在时间、预测精度等性能指标方面,对于主流的作业失败状态预测方法对比分析。通过实验的手段,分别模拟数据的离线、在线到达场景,比较了离线分类模型、在线分类模型在作业终止状态的预测时间和预测精度方面的性能差异,并对实验结果和实验参数的选择进一步地进行分析。 本文对于云计算平台中作业失败状态预测方法的研究,能尽早地准确预测作业的终止状态,并采取相应的措施,从而大大改善作业的执行效率,有效提高云平台的资源利用率,具有良好的应用价值。