论文部分内容阅读
随着云计算(Cloud Computing,CC)的蓬勃发展,越来越多的关键业务应用迁移到云数据中心,并通过云数据中心向用户提供服务。云计算提供多种服务模式,其中基础设施即服务(Infrastructure as a Service,Iaa S)将IT基础设施(如服务器、存储和网络等)作为一种服务,以虚拟机(Virtual Machines,VMs)或虚拟链接(Virtual Link,VL)的方式通过网络提供给用户,这些虚拟机部署在云数据中心的物理服务器上,每个虚拟机分配有不同规格的虚拟内核、内存和存储容量,用于适应多种类型的服务需求。在规模庞大且策略多样的云数据中心,服务延迟事故、基础设施故障事故和安全事故不可避免。而可用性作为评估计算资源可被授权实体按需求访问、正常提供服务或在系统发生故障及遭受攻击时恢复使用能力的度量指标,正在成为用户选择云服务提供商(Cloud Service Providers,CSPs)的主要关注点。与此同时,可用性分析还有助于优化系统设计并降低建设成本,为建立高效的云数据平台提供指导。因此,随着Iaa S云服务的广泛应用,无论云用户还是云服务提供商都对云服务可用性评估愈加迫切。本文针对具有规模大、异构性和动态性等特点的Iaa S云数据中心,建立稳态可用性和瞬态可用性分析模型,研究评价指标计算方法,评估各种因素对可用性指标的影响规律。本文的主要研究内容及其贡献包括以下四方面:(1)提出了面向多资源类型的云服务可用性分析模型。该工作旨在从云数据中心服务能否满足用户质量需求的角度出发(关注云服务好不好用),在假设物理服务器不会发生故障的前提下,建立面向单物理服务器服务能力的整体分析模型,并以作业立即服务概率和平均完成时间作为度量指标,评估由相同物理服务器组成的云数据中心在不同用户请求负载下的服务可用性。首先,我们分析了多资源类型云数据中心的服务特点,其中用户请求的计算资源类型和数量均存在差异,且数量上遵循一般概率分布。随后,建立一种基于连续时间马尔可夫链(Continuous Time Markov Chain,CTMC)的单物理服务器整体分析模型,详细描述状态转移规则,并推导出立即服务概率和平均完成时间两个云服务稳态可用性度量指标的计算公式。最后,设计数值分析和仿真实验对模型正确性和有效性进行验证,在多种参数设置下验证模型的近似精度。本研究建立的可用性分析模型相比于单一资源模型考虑更加全面,更能够反映云服务实际运行状况,提高了可用性评估的准确性。(2)针对不同修复策略下的Iaa S云数据中心物理服务器可用性,提出了可用性整体分析模型和交互式分析模型。该工作旨在从云数据中心物理层面(如物理服务器)能否正常运行并提供服务的角度出发(关注云服务能不能用),建立面向多物理服务器的整体分析模型和交互式分析模型,并以平均可用物理主机数量和系统拒绝服务时间作为度量指标,评估其在不同运行策略下的物理服务器稳态可用性。首先分析了Iaa S云数据中心特点,包括规模大、修复策略和物理服务器异构、动态迁移等,并对系统进行描述。随后,提出了云数据中心物理服务器的可用性整体分析模型及其度量指标,分析不同修复策略和系统参数对云数据中心可用性的影响。同时,为了克服大规模云数据中心整体分析模型的局限性,进一步将其分解为多个交互式子模型,并提出各子模型之间的参数依赖关系,建立了一种新型交互式分析模型。最后,在不同参数设置下开展实验,通过对比整体模型和交互式模型的实验结果,验证了交互式模型的准确性;并通过对两种修复策略下交互式模型的实验结果进行对比,评估了不同修复策略和修复能力对云服务可用性和建设成本的影响。本研究建立的整体分析模型和交互式分析模型更加全面且更接近真实运行环境,实现了对大规模状态模型的求解,提高了可用性评估的准确性,同时对比出不同修复策略的优劣点。(3)提出了交互式模型中连续型参数的敏感度分析方法。该方法能够对分布在不同子模型中的同一参数,进行统一敏感度分析。该方法首先求解每个子模型中相关参数的敏感度,然后分析每个子模型中涉及参数的敏感度等级,按照敏感度影响大小进行排序并忽略影响较小的参数,最后综合应用几个子模型的计算结果,确定出影响系统可用性最显著的参数。利用该方法验证了不同修复策略和系统参数对可用性的影响程度,实现了对大规模云数据中心的参数敏感度分析。(4)提出了云服务瞬态可用性分析模型。对于关键应用领域的Iaa S云数据中心,需要全面衡量其可用性,不仅要分析稳态指标,还应考虑系统在面对瞬时发生的蓄意攻击、故障失效或偶发事故时,其仍能提供服务的能力。该工作针对一个存在渗透攻击安全漏洞的Iaa S云数据中心,建立了瞬态可用性分析模型,该模型更接近真实运行场景,允许攻击者以不同的入侵能力通过被入侵的服务器对其它服务器进行攻击,并且入侵后数据窃取和数据泄漏的速率随服务器数量动态变化。模型可捕捉从Iaa S云数据中心物理服务器首次被入侵到防御机制生效期间,系统和入侵者的行为,并以某一时刻被入侵、数据泄露和安全状态的概率,以及系统损失量作为度量指标,提出计算方法,最后通过仿真实验结果验证了模型的近似准确性,本研究有助于云服务提供商制定系统防御计划,并在系统损失与防御成本之间进行权衡抉择。