论文部分内容阅读
随着计算机软硬件以及网络技术的不断发展,服务计算模式也不断发生日新月异的变化。依托Internet的快速发展,近年来先后出现了以广域网P2P系统、网格、云计算等为代表的开放型的大规模分布式网络计算系统。这些网络计算系统承载了大量与经济生产和社会生活息息相关的业务系统,极大地促进了经济的发展和社会的进步。一旦这些系统出现故障、或者服务质量降低,就会给社会的生产生活带来极大的不便和经济损失。因此,如何保障和提升计算系统可信性,使其能够持续提供高可用、高可靠等特点的计算服务,也就成为了分布式计算技术应用和发展的关键问题之一。为此工业界和学术界都投入了大量的人力和财力开展了相关研究。正确地对系统中的故障进行控制和容错处理是提高系统可信性的重要手段,而切实有效的基于系统实体状态的故障检测是确保这一手段可行的一个重要基础。故障检测不仅是对故障的正确识别,同时也包括了对被检测对象的有效监测,本文针对大规模分布式网络计算环境中的故障检测若干关键问题展开讨论和研究。在对现有相关技术和研究成果的总结和深入分析基础上,提出了面向可信计算的分布式故障检测系统的体系结构,设计了相关的分布式自组织实体监测算法、状态消息散播算法、检测系统可生存性算法和故障识别算法,最后实现了一套自组织的分布式故障检测原型系统。本论文的具体研究工作和创新点包含如下几个方面:①在明晰了可信计算框架下对分布式计算系统进行故障检测所面临的问题基础上,针对开放式网络分布式系统应用特点及容错需求,设计了与上层策略分离的故障检测体系结构,建立了包含状态数据采集、系统实体监测、状态信息散播、故障识别等模块的分布式故障检测总体框架。②针对传统的集中式或者层次式面向失效检测的节点监测体系不能很好适应开放式大规模分布式网络计算环境下节点分布范围广、参与计算节点数量多、消息传输时延不稳定、服务依赖关系不确定等特点,基于自组织思想,提出了一种依据系统实体相互之间距离的分邻域监测方法。该方法有效地降低了邻域互监测的时延,提高了大规模分布式环境中的实体监测效率。③针对消息泛洪方式引起的网络高负载和消息单播方式造成的系统高时延问题,分析了采用传统流言协议的消息散播方法的优缺点,提出了基于流言协议的定向消息散播算法D-Gossip,降低了传统流言协议在消息散播时的不确定性,有效地提高了消息散播效率和覆盖率,减少了系统冗余信息量。④在分布式检测系统中,节点相互之间具有对等性,同时监测域是自组织构造的,这就造成监测域中存在关键节点,一旦关键节点退出系统,将造成大量的节点无法被监测,导致分布式检测系统部分失效,降低故障检测功能的可生存性。这个问题在高动态的分布式环境中尤为明显,为此,本论文针对关键节点设计了一套包含自适应检测、主动检测和修复的方法,有效地解决了分布式故障检测系统的可生存性问题。⑤针对在大规模分布式计算服务中,故障样本有限和传统方法在故障分类识别中面临的困难,把支持向量机引入到分布式故障检测系统中来,为故障的分类和识别提供了新的研究方法。论文研究了支持向量机用于故障分类和识别的关键问题,给出了基于支持向量机故障识别的基本实现步骤,同时针对标准支持向量机不能直接用于解决面向可信计算的故障检测这种典型多值分类问题的困难,提出采用决策有向无环图的多值分类算法,建立了多故障分类器模型,并以故障注入方式对其正确性进行了验证。⑥设计了面向可信计算的分布式故障检测原型系统,对系统中每个组件的实现过程给出了详细的介绍;同时在该原型系统之上做了本文所述检测系统的系列实验,验证了系统各组件的功能。综上,本文分析并研究了当前故障检测技术在大规模分布式可信计算应用环境中所面临的若干关键问题,设计并改进了一系列算法。通过理论分析和实验结果表明:相关算法是正确、有效的,能够针对大规模分布式网络计算环境进行面向可信计算的故障检测,为系统可信性保障决策提供夯实的基础。