论文部分内容阅读
云计算时代,用户购买的是云服务提供商提供的服务,如果其可靠性不高,给用户提供的服务频频失败,则将会直接影响到用户的满意度,用户极有可能选择其他的云服务提供商。因此,就像传统的电子产品一样,可靠性是云服务提供商的核心竞争力之一。但是,云计算系统的一个重要功能在于对外提供服务,如计算服务及存储服务等,因此其服务质量(QoS, Quality of Service)对于云计算系统的大规模商业应用至关重要。因此,云计算的服务可靠性是用户提交的服务请求能够被云计算系统成功完成,并且能够在指定的时间内完成的概率。同时,在计算系统中,容错技术(Fault Tolerance)是一种提高可靠性的常用手段,采用容错技术以后,云计算的服务可靠性应如何建模与评估,现有的文献中对此鲜有开展研究。因此,本文详细研究了采用容错技术的情况下云计算服务可靠性的建模与评估,同时考虑了云计算系统中计算节点和通信链路采用容错机制带来的影响、用户服务请求到达的不确定性以及用户请求分解成的子任务之间的执行顺序约束等,从而得到更加符合工程实际的云计算系统服务可靠性模型。此外,任务调度(Job/Task Scheduling)也是云计算中的一个重要问题。合理的调度策略通过在云计算系统众多服务器中选择合理的资源来响应用户的服务请求,能够综合满足用户对服务的可靠性、成本、服务时间等服务质量(Quality ofService, QoS)的要求,并且还可以实现系统的负载平衡。目前,对云计算系统任务调度的研究大多假设云计算系统中的计算节点是绝对可靠(即不会发生失效)的,因此,这些研究未考虑云计算系统中的计算节点可能失效从而带来的经济效益的不确定性,即由于计算节点失效后需要一定的时间来恢复任务处理能力,从而造成任务完成时间的延迟,导致云计算系统经济效益的减少。因此,现有研究得出的云计算系统的任务调度策略通常是不符合工程实际的,不能保证云计算系统长期经济效益的最大化。鉴于此,本文深入研究了考虑容错情况下的云计算系统任务调度问题,提出了一种考虑计算节点失效及恢复的任务调度算法,能够很好地处理由于计算节点可能失效而带来的经济效益的不确定性,从而保证云计算系统长期经济效益的最大化。