云集群失败作业的主动预测方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:jihuoxiazai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的迅猛发展,云服务得到广泛应用。在大规模分布式云计算平台中,由于软硬件故障、节点失效、作业调度资源不足等原因,导致作业无法正常完成,造成的资源浪费现象更为严重,因此,进行作业故障预测的研究,对于提高资源利用率有着重要的意义。常见故障预测研究有软/硬件故障预测、系统故障预测等。作业失败状态的预测是软件故障预测的一个方面。传统的故障预测技术进行分析存在一定缺陷,随着人工智能技术的发展,机器学习方法越来越多地被应用于失败作业预测。  本文以大型异构并行计算的Google云集群数据集为研究对象,统计分析失败作业的属性,使用支持向量机模型和在线极限学习机模型对作业的终止状态进行主动预测。主要工作和贡献如下:  (1)统计了Google云集群作业的完成情况,并分析了导致作业各种终止状态的影响因素,在此基础上,提出将影响作业终止状态的特征划分为静态特征和动态特征。针对云平台频繁的作业失败现象,提出了使用支持向量机模型,主动预测作业终止状态。该方法使用作业的静态特征和动态特征作为作业的特征向量。实验结果显示,该方法预测作业终止状态的精确率达到95%。  (2)针对实际应用中数据是流式到达的,提出使用在线序列极限学习机模型进行在线失败作业预测的方法。该方法根据作业到达顺序,批量取数据,使用该批数据进行作业状态预测并更新模型。实验结果显示,使用在线序列极限学习机模型能够在0.01s内完成模型更新,并以93%的准确预测出作业的终止状态。  (3)在时间、预测精度等性能指标方面,对于主流的作业失败状态预测方法对比分析。通过实验的手段,分别模拟数据的离线、在线到达场景,比较了离线分类模型、在线分类模型在作业终止状态的预测时间和预测精度方面的性能差异,并对实验结果和实验参数的选择进一步地进行分析。  本文对于云计算平台中作业失败状态预测方法的研究,能尽早地准确预测作业的终止状态,并采取相应的措施,从而大大改善作业的执行效率,有效提高云平台的资源利用率,具有良好的应用价值。
其他文献
自20世纪70年代的集散控制系统的出现,传统的工业自动化控制系统出现了结构性的变革,控制系统的网络化成为了新的趋势。以数字串行通信为代表的现场总线标准成为20世纪末工业
随着仿真模型技术的广泛应用,如何提高复杂仿真模型系统的开发效率和降低开发成本问题变得越来越重要。由于系统的复杂性,难于直接开发出满足需求的模型,需要将其分解为子系统,针
大规模函数优化问题有着广阔的应用背景,很多实际应用中的问题都可以抽象成此数学模型解决。进化算法是目前被普遍公认的一种求解函数优化问题行之有效的方法,以其实现简单、求
随着数码产品的普及,人们现在可以随时记录现实生活中的各种场景信息,而普通的数码产品由于受其自身硬件设备的限制,一般无法完全把场景的所有信息记录下来。比如,一个真实场
马铃薯作为我国第四大主粮,对其外部缺陷的检测直接影响到我国马铃薯商品化和深加工进程。由于目前国内大多基于特定环境、特定光照下进行检测,这并不能满足实际环境检测要求。因此,本文提出在开放的自然光环境下对马铃薯主要外部缺陷绿皮、发芽、病斑等的无损检测方法进行研究,这对马铃薯进行深加工和商品化具有重大意义。本文首先针对自然光环境下马铃薯图像的分割方法进行研究,提出一种新的方法分割出马铃薯目标区域。主要先
随着虚拟现实技术的发展,通过这种技术创建一个消防仿真训练系统成为了当今消防训练的趋势。在消防仿真中,火焰的效果直接反应了当前虚拟环境中火灾的发生情况,因此火焰特效是这
体数据在科学模拟、医学影像、石油勘探等领域普遍存在,体数据的可视化也一直是科学计算可视化领域的研究热点。直接体绘制方法因能全面展示体数据的信息、揭示内部特征而备受
近年来,随着科学技术的进步,数据的处理和采集技术也得到突飞猛进的发展,人们对于不确定性数据的关注也越来越多,在不确定性数据中包含离散的不确定和连续的不确定两种类型的数据
随着计算机技术的发展和网络时代的来临,应用系统的更新换代速度逐渐加快,数据作为应用系统的核心,也同样面临着在不同系统和环境下的迁移问题。数据迁移的需求大多存在于关系数
熟练的掌握英语,已经成为了现代人的必备素质之一。英语学习的过程是一个整合式的学习过程,包括了听、说、读、写等部分,而各个部分之间是相互关联的,正因为英语学习的此种特性,也