论文部分内容阅读
数据中心是Internet的重要基础设施,它为用户提供数据存储、计算和传输等核心服务支撑。随着网络技术的高速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子商务、社交网络、网络游戏及大规模集群计算等领域中的关键作用日益显现。大规模数据中心网络运行的应用通常对网络性能要求严格,需要管理者能更加实时、精确的掌握全网态势和端到端的通信性能,在网络性能下降之后能及时发现、定位故障和解决网络拥塞。本文针对数据中心网络研究高效的网络故障诊断方法,提出了以下创新点:1.数据中心网络具有规模大、异构性强、数据变化快和流量复杂等特点,采用现有的数据采集方法很难达到网络管理的需求,提出了分布式数据采集节点部署方法,以较小的数据采集集合来获取网络中的数据信息,在此基础上提出了并发自适应分布式数据采集方法,采用自适应采集策略和并发多线程机制,能根据数据中心网络数据变化自适应调整数据采集周期,并根据网络规模调整并发采集粒度,极大提高了数据采集的效率。2.针对数据中心网络中事件告警存在数据量大、冗余信息多的问题,提出了基于冗余消减机制的告警相关性分析方法,对收集的告警事件数据进行归一化处理,判断告警数据的拓扑相关性,根据拓扑相关性分为不同的拓扑组,对每个拓扑组进行时间相关性和告警相关度的计算,最终确定故障的根源告警。3.面对数据中心网络中众多的相关信息,如何进行故障诊断获得引起网络异常的最有可能的故障集合是一个富有挑战性的问题,论文提出了基于自学习机制贝叶斯的故障分类方法,对贝叶斯分类器进行训练,利用分类器来对网络故障进行分类,在分类过程中产生错误的故障,采用自学习机制根据故障属性建立新的故障类型加入到故障类型库中,不断完善分类器,提高了故障分类的精度。4.设计并实现了面向数据中心网络的故障管理原型系统,该系统基于Spring的管理框架,采用分层的体系架构,从上至下包括可视化层、决策层、网络感知和资源层,对网络中的大量数据采用上述算法进行分析和故障诊断,提供实时准确的全网故障和性能视图,并通过可视化工具以用户友好的方式表现出来。目前该系统部署在天河2网络故障监控中,应用效果良好。