论文部分内容阅读
随着互联网和数据中心的发展,实时系统越来越多的应用于各种分布式环境而形成的云计算已越来越受到科学界和商业领域的关注。云计算的主要思想是把互联网上的各种计算资源整合在一起。这些计算资源很多都是异构的,因此有效管理大规模异构的计算资源迫在眉睫。同时,通信效率和高可靠性也是云计算的内在要求,是系统提供给用户服务质量的重要衡量指标。但是,当前很多研究考虑资源容错调度时都是假设单机失败,可是大规模云计算系统使用的资源具有高度动态性和异构性,资源环境所固有的不可靠状态,使得云计算系统出现大规模资源失败的可能性大大增加。因此,仅假设单机失败对于研究云计算的容错问题显然存在很大的局限性。因此,本文首先综述了容错调度策略,探讨了容错调度策略在国内外的研究现状,从多角度介绍了单机失败和多机失败的容错调度策略研究,以及当前研究存在的突出问题。同时,提出了云计算系统模型的通用框架。针对云计算资源管理中提出的容错要求,分析了当前流行的容错策略和可靠性度量。在这些知识的基础上,得到本文的研究目标,针对研究目标,本文提出了基于通信效率和可靠性两个QoS因素的容错调度策略。云计算系统中基于通信效率驱动的容错调度策略FMCED,首先提出了一个容错模型和一个通信模型,基于模型得出了通信所需的消息集,同时分析了任务间关系的各种情形。针对各种情形,提出了处理机分配和最早开始时间的约束条件。结合通信效率的定义,提出了系统出现单机失败的情况下以通信效率为代价的调度目标来动态调度相互依赖的、不可抢占的、非周期的实时任务。之后进一步地扩展到多机失败情形,提出了可靠性模型用于评价系统的容错性能,给出了系统中任务的关键性度量使得越重要的任务能够优先调度,同时提出了限制条件使得调度过程中不会影响到任务后续的调度开始时间。因此,基于主动复制技术,提出了系统发生大规模资源失败时容错调度策略DRFACS,它以可靠性代价为调度目标来动态调度相互依赖、不可抢占的、非周期实时任务,通过有效的容错调度来提高系统的服务质量。最后,通过仿真实验从调度性、延迟、通信效率和可靠性等多个QOS因素,将本文提出的策略与eFRD、MCT-LRC、FTSA、FTBAR进行比较,表明了系统的服务质量具有良好的性能。