论文部分内容阅读
针对复杂网络和多样化业务对故障管理提出的高要求,首先总结了运维发展历程,从人工运维、半自动化运维、自动化运维和智能化运维(Artificial Intelligence for IT Operations)几个阶段,阐述了智能运维的核心和关键点,对比了国内外标准化组织的运维发展特色和贡献;在此基础上梳理分析了网络故障方面的标准化组织对故障管理研究的特色和贡献,最后,进行了故障数据采集提取方式分类,故障定义分类研究。
随着网络规模扩大、复杂性增高、业务多样化,对网络运维管理的要求越来越高,而故障管理是运维管理中非常重要的功能之一,如何在故障发生时,快速准确定位迅速解决故障恢复正常一直是运维管理追求的目标,同时大数据人工智能技术的发展,对运维管理的智能性也提出了更高的要求,尤其对告警管理提出了前瞻性预测的需求,因此研究故障诊断技术是一项非常有意义的工作。
智能运维发展历程
人工运维、半自动化运维、自动化运维和智能化运维是传统网络运维经历的发展过程和阶段,其中,智能化运维最早由Gartner定义为采用AI和机器学习等人工智能算法,通过人工智能算法解决已知的和潜在的运维问题。
智能运维与传统运维最大的区别在于,构建以机器学习算法为基础的智能化运维管控平台,将数据、算法和模型应用于网络运维任务和流程中,进行自主分析和决策,实现从“基于专家经验”到“基于机器学习”的转变,在动态变化的复杂场景条件下,基于智能化运维平台自适应触发高效准确的决策判断。尤其体现在海量告警数据聚合、动态异常流量监测、故障预警、故障预测等基于海量运维数据做出分析判断等应用场景下的自主决策和分析。
故障管理国内外研究现状
为了降低运维成本,提高网络的可靠度和健壮性,国内外标准化组织和科研机构均针对网络智能化运维开展了系列标准化和研究工作,具体分析如下:
国内外在网络故障运维方面的标准化组织包括中国通信标准化协会(CCSA)、ITU-T和3GPP等。其中CCSA的网络管理与运营支撑技术工作委员会(TC7)的研究领域包括:运维管理、电信运营OSS/BSS相关领域的研究及标准制定。负责ITU-T SG4研究领域的研究工作。CCSA TC7面向无线接入网(2G,3G,4G)、SDN/NFV网络、SDH/OTN/PTN等不同的网络均提出了对应的网络运维和管理技术要求,形成了一系列标准报批稿。面向网络的智能运维,CCSA于2018年立项了通信网智能维护技术要求“基本原则”和“通信网敏捷运营管理框架”等三项行标,并在此前开展的第1、2部分研究基础上,讨论通过了“通信网智能维护技术要求第3部分:智能运维支撑系统”和“通信网智能维护技术要求第4部分:智能运维信息模型”两项行标立项建议,并在2020年1月获批。
著名组织针对故障管理研究
传统的通信网络运维管理主要依靠人工参与,管控流程过度依赖人工判断,缺乏自动化操作,智能化程度低,管理规则大部分基于主观形成,缺乏科学性和客观性,严重影响运维自动化智能化和管控效率。随着融合物联网、人工智能、大数据技术的智能可穿戴技术的实用化,以及人机交互能力的友好性不断提升,基于智能可穿戴技术的运维已经应用于大型装备领域,并在通信网络智能管理方面进行了典型应用。在上述应用的基础上,与ITU-T同步进行的“通信网智能维护技术要求”相关研究,提出了涵盖功能、性能、接口、信息模型、網络功能编排等具体技术标准,从而为业界应用提供相关指导和规范作用。
国际电信联盟电信标准分局(ITU-T),它是国际电信联盟管理下的分支机构,负责制定电信标准。其中工作组SG2和SG12和网络运维相关。SG2,负责业务提供和电信管理的运营问题,SG12负责性能、QoS和QoE的相关标准化。在这些标准化工作组的带领下,ITU-T的M系列标准描述了通信管理、网络运维相关的标准需求,包括电信管理网TMN,增强运营图(eTOM)等。为引入网络智能,2019年12月ITU-T会议上针对5G网络人工智能的应用提出了对应的标准化建议。ITU-T的E系列标准则引入了整体的网络运营的概念,并在近期提出了智能网络分析和诊断的指南标准草稿ITU-TE.475
3GPP成立于1998年12月,多个电信标准组织伙伴共同签署了《第三代伙伴计划协议》。3GPP最初的工作范围是为第三代移动通信系统制定全球适用的技术规范和技术报告。第三代移动通信系统基于的是发展的GSM核心网络和它们所支持的无线接入技术,主要是UMTS。随后3GPP的工作范围得到了改进,增加了对UTRA长期演进系统的研究和标准制定。目前有欧洲的ETSI、美国的ATIS、日本的TTC、ARIB、韩国的TTA、印度的TSDSI以及我国的CCSA作为3GPP的7个组织伙伴(OP)。目前独立成员超过550多个,此外,3GPP还有TD-SCDMA产业联盟(TDIA)、TD-SCDMA论坛、CDMA发展组织(CDG)等13个市场伙伴(MRP)。
SA WG5主要规范网络(RAN,CN,IMS)及其服务的配置和管理,体系结构和解决方案。工作组将根据相关工作组制定的相关收费要求及解决方案,指定网络及其服务计费的体系结构和协议。
工作组将确保其工作也适用于融合网络的管理和计费,并可能适用于固定网络。该工作组将与其他3GPP工作组和所有相关的SDO进行协调,以实现与网络及其服务提供,收费和管理有关的规范工作。
3GPP的规范中,编号为32系列的是网络管理与运营相关的技术规范。为了降低人工运维的成本,提出了自组织网络的系列规划,支持3G,4G以及未来5G网络自配置、自优化、自修复等功能,是网络智能化运维的基础系列标准。
基于以上分析可知,智能化的配置、性能、故障等管理已经得到了国内外各大标准化组织的关注,并已列入相关的标准化进程。然而目前的标准仅仅是指导性文件,对网络智能方法的具体部署和实现方法,以及在专用网络中的适应性,还需要进一步的分析。 故障数据来源及分类
通过梳理国内外重要标准化组织在运维管理和故障管理中的重大贡献,总结出故障数据的提取和分类是故障管理中最重要和基础的研究内容。
告警数据的采集可以通过多种方式和渠道。可以通过SNMP协议中的TRAP主动上报获取,也可以通过定时轮询重要参数,并设定阈值对比进行越限告警;还可以通过操作日志获取,通过SYSLOG接口作为网管系统接收设备系统日志的接口,用于网元日志管理功能。大规模准确的告警数据的获取是进行精准告警的重要前提和基础,设备使用日志、设备错误日志以及用户活動日志均是告警数据的来源,大量训练数据的采集存储是进行可靠神经网络建模的前提和基础,建模数据要求准确、完整和海量。
通过告警管理可以监控、管理系统自身或管理对象上报的告警、异常或事件,提供了丰富的监控和处理规则,以满足各种监控和处理场景需要,帮助高效监控、快速定位和处理网络故障。
告警上报、告警订阅、活跃告警同步、告警确认、告警清除、告警查询、告警过滤、告警统计、活跃告警、历史告警、告警同步、静态告警信息查询、告警经验库、性能越限事件告警。告警处理能力和网络中的告警数量、服务器的处理性能、内存大小等有关系,在发生告警风暴时,告警处理能力很容易达到极限。
常见的告警类型或方式为:
①通信告警:被管网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败,如设备通信中断告警;
②业务质量告警:业务质量退化问题而引起的告警,如设备拥塞告警;
③处理错误告警:软件或处理过程错误而引起的告警;版本不匹配告警;
④设备告警:物理资源故障而引起的告警,如单板故障告警;
⑤环境告警:设备所在地相关的问题而引起的告警,如设备机房有烟雾而产生的烟雾告警;
⑥完整性告警:请求的操作不能正常提供,如篡改用户信息;
⑦操作告警:所需服务因不可用、故障或错误调用等问题无法正常运行,如服务拒绝、服务退出、程序性错误等;
⑧物理资源告警:物理资源受到破坏;
⑨安全告警:安全服务或机制检测到有关安全方面的问题发生;
⑩时间域告警:某事在不应该发生的时间内发生;
⑾属性值改变:管理对象的属性值发生改变。
上述所列告警类型是故障管理的精细化分类,均可作为网络故障划分的依据和参考。
故障管理是网络运维管理五大功能之一,是网络健康度评估的重要因素,是网络运行状态的晴雨表,最初网络故障都是人工手动发现、手动排除的,通常都会影响在网运行业务的正常运行,是以业务中断为代价的;随着大数据人工智能新技术的产生和迅猛发展,故障管理逐渐向主动上报、自动诊断、故障预测等智能性和前瞻性方向演进。
随着网络规模扩大、复杂性增高、业务多样化,对网络运维管理的要求越来越高,而故障管理是运维管理中非常重要的功能之一,如何在故障发生时,快速准确定位迅速解决故障恢复正常一直是运维管理追求的目标,同时大数据人工智能技术的发展,对运维管理的智能性也提出了更高的要求,尤其对告警管理提出了前瞻性预测的需求,因此研究故障诊断技术是一项非常有意义的工作。
智能运维发展历程
人工运维、半自动化运维、自动化运维和智能化运维是传统网络运维经历的发展过程和阶段,其中,智能化运维最早由Gartner定义为采用AI和机器学习等人工智能算法,通过人工智能算法解决已知的和潜在的运维问题。
智能运维与传统运维最大的区别在于,构建以机器学习算法为基础的智能化运维管控平台,将数据、算法和模型应用于网络运维任务和流程中,进行自主分析和决策,实现从“基于专家经验”到“基于机器学习”的转变,在动态变化的复杂场景条件下,基于智能化运维平台自适应触发高效准确的决策判断。尤其体现在海量告警数据聚合、动态异常流量监测、故障预警、故障预测等基于海量运维数据做出分析判断等应用场景下的自主决策和分析。
故障管理国内外研究现状
为了降低运维成本,提高网络的可靠度和健壮性,国内外标准化组织和科研机构均针对网络智能化运维开展了系列标准化和研究工作,具体分析如下:
国内外在网络故障运维方面的标准化组织包括中国通信标准化协会(CCSA)、ITU-T和3GPP等。其中CCSA的网络管理与运营支撑技术工作委员会(TC7)的研究领域包括:运维管理、电信运营OSS/BSS相关领域的研究及标准制定。负责ITU-T SG4研究领域的研究工作。CCSA TC7面向无线接入网(2G,3G,4G)、SDN/NFV网络、SDH/OTN/PTN等不同的网络均提出了对应的网络运维和管理技术要求,形成了一系列标准报批稿。面向网络的智能运维,CCSA于2018年立项了通信网智能维护技术要求“基本原则”和“通信网敏捷运营管理框架”等三项行标,并在此前开展的第1、2部分研究基础上,讨论通过了“通信网智能维护技术要求第3部分:智能运维支撑系统”和“通信网智能维护技术要求第4部分:智能运维信息模型”两项行标立项建议,并在2020年1月获批。
著名组织针对故障管理研究
传统的通信网络运维管理主要依靠人工参与,管控流程过度依赖人工判断,缺乏自动化操作,智能化程度低,管理规则大部分基于主观形成,缺乏科学性和客观性,严重影响运维自动化智能化和管控效率。随着融合物联网、人工智能、大数据技术的智能可穿戴技术的实用化,以及人机交互能力的友好性不断提升,基于智能可穿戴技术的运维已经应用于大型装备领域,并在通信网络智能管理方面进行了典型应用。在上述应用的基础上,与ITU-T同步进行的“通信网智能维护技术要求”相关研究,提出了涵盖功能、性能、接口、信息模型、網络功能编排等具体技术标准,从而为业界应用提供相关指导和规范作用。
国际电信联盟电信标准分局(ITU-T),它是国际电信联盟管理下的分支机构,负责制定电信标准。其中工作组SG2和SG12和网络运维相关。SG2,负责业务提供和电信管理的运营问题,SG12负责性能、QoS和QoE的相关标准化。在这些标准化工作组的带领下,ITU-T的M系列标准描述了通信管理、网络运维相关的标准需求,包括电信管理网TMN,增强运营图(eTOM)等。为引入网络智能,2019年12月ITU-T会议上针对5G网络人工智能的应用提出了对应的标准化建议。ITU-T的E系列标准则引入了整体的网络运营的概念,并在近期提出了智能网络分析和诊断的指南标准草稿ITU-TE.475
3GPP成立于1998年12月,多个电信标准组织伙伴共同签署了《第三代伙伴计划协议》。3GPP最初的工作范围是为第三代移动通信系统制定全球适用的技术规范和技术报告。第三代移动通信系统基于的是发展的GSM核心网络和它们所支持的无线接入技术,主要是UMTS。随后3GPP的工作范围得到了改进,增加了对UTRA长期演进系统的研究和标准制定。目前有欧洲的ETSI、美国的ATIS、日本的TTC、ARIB、韩国的TTA、印度的TSDSI以及我国的CCSA作为3GPP的7个组织伙伴(OP)。目前独立成员超过550多个,此外,3GPP还有TD-SCDMA产业联盟(TDIA)、TD-SCDMA论坛、CDMA发展组织(CDG)等13个市场伙伴(MRP)。
SA WG5主要规范网络(RAN,CN,IMS)及其服务的配置和管理,体系结构和解决方案。工作组将根据相关工作组制定的相关收费要求及解决方案,指定网络及其服务计费的体系结构和协议。
工作组将确保其工作也适用于融合网络的管理和计费,并可能适用于固定网络。该工作组将与其他3GPP工作组和所有相关的SDO进行协调,以实现与网络及其服务提供,收费和管理有关的规范工作。
3GPP的规范中,编号为32系列的是网络管理与运营相关的技术规范。为了降低人工运维的成本,提出了自组织网络的系列规划,支持3G,4G以及未来5G网络自配置、自优化、自修复等功能,是网络智能化运维的基础系列标准。
基于以上分析可知,智能化的配置、性能、故障等管理已经得到了国内外各大标准化组织的关注,并已列入相关的标准化进程。然而目前的标准仅仅是指导性文件,对网络智能方法的具体部署和实现方法,以及在专用网络中的适应性,还需要进一步的分析。 故障数据来源及分类
通过梳理国内外重要标准化组织在运维管理和故障管理中的重大贡献,总结出故障数据的提取和分类是故障管理中最重要和基础的研究内容。
告警数据的采集可以通过多种方式和渠道。可以通过SNMP协议中的TRAP主动上报获取,也可以通过定时轮询重要参数,并设定阈值对比进行越限告警;还可以通过操作日志获取,通过SYSLOG接口作为网管系统接收设备系统日志的接口,用于网元日志管理功能。大规模准确的告警数据的获取是进行精准告警的重要前提和基础,设备使用日志、设备错误日志以及用户活動日志均是告警数据的来源,大量训练数据的采集存储是进行可靠神经网络建模的前提和基础,建模数据要求准确、完整和海量。
通过告警管理可以监控、管理系统自身或管理对象上报的告警、异常或事件,提供了丰富的监控和处理规则,以满足各种监控和处理场景需要,帮助高效监控、快速定位和处理网络故障。
告警上报、告警订阅、活跃告警同步、告警确认、告警清除、告警查询、告警过滤、告警统计、活跃告警、历史告警、告警同步、静态告警信息查询、告警经验库、性能越限事件告警。告警处理能力和网络中的告警数量、服务器的处理性能、内存大小等有关系,在发生告警风暴时,告警处理能力很容易达到极限。
常见的告警类型或方式为:
①通信告警:被管网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败,如设备通信中断告警;
②业务质量告警:业务质量退化问题而引起的告警,如设备拥塞告警;
③处理错误告警:软件或处理过程错误而引起的告警;版本不匹配告警;
④设备告警:物理资源故障而引起的告警,如单板故障告警;
⑤环境告警:设备所在地相关的问题而引起的告警,如设备机房有烟雾而产生的烟雾告警;
⑥完整性告警:请求的操作不能正常提供,如篡改用户信息;
⑦操作告警:所需服务因不可用、故障或错误调用等问题无法正常运行,如服务拒绝、服务退出、程序性错误等;
⑧物理资源告警:物理资源受到破坏;
⑨安全告警:安全服务或机制检测到有关安全方面的问题发生;
⑩时间域告警:某事在不应该发生的时间内发生;
⑾属性值改变:管理对象的属性值发生改变。
上述所列告警类型是故障管理的精细化分类,均可作为网络故障划分的依据和参考。
故障管理是网络运维管理五大功能之一,是网络健康度评估的重要因素,是网络运行状态的晴雨表,最初网络故障都是人工手动发现、手动排除的,通常都会影响在网运行业务的正常运行,是以业务中断为代价的;随着大数据人工智能新技术的产生和迅猛发展,故障管理逐渐向主动上报、自动诊断、故障预测等智能性和前瞻性方向演进。