云服务基础设施中故障诊断与识别策略管理研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xinhua9966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大型云服务基础设施经常出现故障,这成为了其管理成本的主要组成部分,并会导致托管服务违反服务级别协议(SLA)。近年来,各主要云服务提供商,包括IBM、亚马逊和谷歌的云服务基础设施数量出现了前所未有的增长。使云计算服务具有如此吸引力的一些独特特性包括:无限可用的资源池、灵活的规模经济、多租户和自组织特性,这些特性将云服务与传统的分布式系统(例如,数据中心和网格)区别开来。尽管云计算提供了以上服务并具有优势,但也存在挑战。复杂系统已经成为一种流行的计算模式,它支持工作负载自动伸缩,以适应需求的变化和云服务中资源的虚拟化。通过持续配置虚拟资源和物理工作负载的分配使工作实现弹性,但也增加了故障和异常发生的可能性,特别是在提供基础设施服务(IaaS)的层面。在云服务基础设施中,对故障诊断和识别相关问题的管理是至关重要的,这是本文研究的主要问题。本文论述了云服务基础设施故障诊断和识别策略管理的四个具体主题:(1)由于在异构环境中虚拟化技术的可扩展性和复杂性增大,使故障诊断变得更加困难。但因其在云基础设施的故障管理框架中的重要性,故障诊断和识别仍受到广泛关注。大多数故障诊断和识别方法都是基于主动探测技术,这些技术可用于快速准确地检测故障。然而,大多数方法都受到了通信开销和故障诊断的影响,导致了云服务系统性能的降低,例如IaaS。(2)由于数据量大,监测成为一项特殊的挑战。大型复杂系统的监测需要对故障检测和异常进行高精度、低延迟和近实时分析,还需要通过运行具有代表性的大型数据集处理应用程序进行优化。(3)异常/故障的诊断和自我修复是云服务基础设施的重要操作,需要自动化的故障检测和实时自我修复。(4)在IaaS中,有四个有效的测量标准来确定故障排除的有效性:优先级、故障概率、风险和配置操作的持续时间。一些研究小组的目标是通过将故障诊断扩展到故障排除,来确定如何监测集合、开发分类器并分析测量的属性,而不是单个的测量阈值。本文针对云服务基础设施中故障诊断和识别的策略管理进行了研究。提出了有效的方法,并探讨了潜在的动机和解决方案。通过全面的实证分析和新的定量方法进行了详尽的评价,并为今后的研究奠定了基础。达成了四项独立但相互关联的成果:(1)首先,论文提出并开发了一种新的混合模型,名为加速故障诊断和识别(AFDI),根据故障级别和异常的严重程度,监测VM和物理服务器托管的各种系统指标,并研究细粒度容错算法。基于这些发现,论文提出了一种新的方法来构建一种模型,该模型可以优化实时监控的性能,并基于Hadoop MapReduce和Apache Spark平台提高预测的准确性。(2)接下来,论文提出了一种新的方法,通过对其定性指标进行分析和分类来诊断异常/故障。使用机器学习算法确定的异常/故障的分布来创建时间序列诊断方法,以在运行时检测和分类异常/故障,从而估计每个自修复系统组件对系统功能的影响,并实现服务的高可用性。(3)论文提出了一种新的理论方法来构建故障检测与修复(故障排除)模型的步骤,将朴素贝叶斯分类(NBC)与多值决策图(MDD)结合起来,对云异常检测的故障排除进行构建和管理。实施这种方法的实际考量是提供一种决策理论的方法来对云服务基础设施的故障诊断步骤进行建模。(4)最后,论文为IaaS提出了一个基于Apache sparks的瓶颈故障排除性能框架,论文将其命名为CloudPT。CloudPT有许多优点:它具有高效的检测能力;它有一个统一的、全方位的循环反馈,与云生态系统的管理相协作;并且包括故障诊断性能测试。CloudPT的目标是通过扩展故障排除来监测集合、深入分析并对测量的属性进行分类,而不是单个测量阈值。
其他文献
第一部分青霉素致反复惊厥模型远期可塑性相关蛋白家族Plpprs和线粒体功能相关蛋白表达变化和相互作用目的:探讨青霉素致反复惊厥模型远期发育、神经行为、认知和海马形态损
中国自改革开放以来经济不断发展,高速的经济增长需要消耗大量能源,而煤炭在中国的资源消耗中占据主体地位,且在未来较长时间内不会改变。中国作为煤炭资源生产、消费大国,对
随着公路建设的迅速发展与社会经济对建设要求的变化,目前,公路隧道施工在各方面与以往施工都表现出较大的不同。主要表现在:施工技术难度进一步增加,施工质量的控制力度进一
股骨头坏死是一种临床常见病、多发病,可导致股骨头结构改变、髋关节功能障碍。股骨头坏死的发病机制复杂,而脂肪代谢紊乱是本病发病中的重要环节。近年来,人们越来越观察到
在个体崛起与社会风险并存的外部环境中,家庭生活的价值观念呈现多元化的特征,这一多元化的价值观念深嵌在家庭文化内涵中。在中老年家庭的日常生活中,伦理性价值是维系家庭
【目的】探讨陕西米仓山巴山冷杉天然林群落的物种多样性及种群分布格局,为巴山冷杉天然林可持续保护及有效管理提供理论依据。【方法】在米仓山巴山冷杉天然林集中分布的上干
当前,我国经济发展面临许多下行压力,许多行业难以为经济腾飞提供动力,促进国民经济增长、缓解就业压力、优化经济结构都离不开中小企业的发展,而中小企业发展的关键就是能否
课余作业是课堂教学的延伸,在提倡语文课堂的有效性的同时。不能忽略了语文作业的有效性。只有兼顾了课堂和作业的有效性,才能真正落实有效的语文教育。有效的语文作业可以检测
水平井中因重力差异普遍存在层流,且流型受井斜角度影响变得复杂,致使测量仪器及测量参数发生变化,传统的滑脱模型已不适用于水平井产液剖面解释。文中分析了水平井油水两相
机器人机构学是机器人研究的前提和基础,是机器人开发的先决条件之一,它包括机构分析和机构综合两个部分。随着机器人操作任务的多样化以及操作环境的复杂化,机构学研究所面