智能故障管理技术研究

来源 :计算机与网络 | 被引量 : 0次 | 上传用户:chenchao198339
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对复杂网络和多样化业务对故障管理提出的高要求,首先总结了运维发展历程,从人工运维、半自动化运维、自动化运维和智能化运维(Artificial Intelligence for IT Operations)几个阶段,阐述了智能运维的核心和关键点,对比了国内外标准化组织的运维发展特色和贡献;在此基础上梳理分析了网络故障方面的标准化组织对故障管理研究的特色和贡献,最后,进行了故障数据采集提取方式分类,故障定义分类研究。
  随着网络规模扩大、复杂性增高、业务多样化,对网络运维管理的要求越来越高,而故障管理是运维管理中非常重要的功能之一,如何在故障发生时,快速准确定位迅速解决故障恢复正常一直是运维管理追求的目标,同时大数据人工智能技术的发展,对运维管理的智能性也提出了更高的要求,尤其对告警管理提出了前瞻性预测的需求,因此研究故障诊断技术是一项非常有意义的工作。
  智能运维发展历程
  人工运维、半自动化运维、自动化运维和智能化运维是传统网络运维经历的发展过程和阶段,其中,智能化运维最早由Gartner定义为采用AI和机器学习等人工智能算法,通过人工智能算法解决已知的和潜在的运维问题。
  智能运维与传统运维最大的区别在于,构建以机器学习算法为基础的智能化运维管控平台,将数据、算法和模型应用于网络运维任务和流程中,进行自主分析和决策,实现从“基于专家经验”到“基于机器学习”的转变,在动态变化的复杂场景条件下,基于智能化运维平台自适应触发高效准确的决策判断。尤其体现在海量告警数据聚合、动态异常流量监测、故障预警、故障预测等基于海量运维数据做出分析判断等应用场景下的自主决策和分析。
  故障管理国内外研究现状
  为了降低运维成本,提高网络的可靠度和健壮性,国内外标准化组织和科研机构均针对网络智能化运维开展了系列标准化和研究工作,具体分析如下:
  国内外在网络故障运维方面的标准化组织包括中国通信标准化协会(CCSA)、ITU-T和3GPP等。其中CCSA的网络管理与运营支撑技术工作委员会(TC7)的研究领域包括:运维管理、电信运营OSS/BSS相关领域的研究及标准制定。负责ITU-T SG4研究领域的研究工作。CCSA TC7面向无线接入网(2G,3G,4G)、SDN/NFV网络、SDH/OTN/PTN等不同的网络均提出了对应的网络运维和管理技术要求,形成了一系列标准报批稿。面向网络的智能运维,CCSA于2018年立项了通信网智能维护技术要求“基本原则”和“通信网敏捷运营管理框架”等三项行标,并在此前开展的第1、2部分研究基础上,讨论通过了“通信网智能维护技术要求第3部分:智能运维支撑系统”和“通信网智能维护技术要求第4部分:智能运维信息模型”两项行标立项建议,并在2020年1月获批。
  著名组织针对故障管理研究
  传统的通信网络运维管理主要依靠人工参与,管控流程过度依赖人工判断,缺乏自动化操作,智能化程度低,管理规则大部分基于主观形成,缺乏科学性和客观性,严重影响运维自动化智能化和管控效率。随着融合物联网、人工智能、大数据技术的智能可穿戴技术的实用化,以及人机交互能力的友好性不断提升,基于智能可穿戴技术的运维已经应用于大型装备领域,并在通信网络智能管理方面进行了典型应用。在上述应用的基础上,与ITU-T同步进行的“通信网智能维护技术要求”相关研究,提出了涵盖功能、性能、接口、信息模型、網络功能编排等具体技术标准,从而为业界应用提供相关指导和规范作用。
  国际电信联盟电信标准分局(ITU-T),它是国际电信联盟管理下的分支机构,负责制定电信标准。其中工作组SG2和SG12和网络运维相关。SG2,负责业务提供和电信管理的运营问题,SG12负责性能、QoS和QoE的相关标准化。在这些标准化工作组的带领下,ITU-T的M系列标准描述了通信管理、网络运维相关的标准需求,包括电信管理网TMN,增强运营图(eTOM)等。为引入网络智能,2019年12月ITU-T会议上针对5G网络人工智能的应用提出了对应的标准化建议。ITU-T的E系列标准则引入了整体的网络运营的概念,并在近期提出了智能网络分析和诊断的指南标准草稿ITU-TE.475
  3GPP成立于1998年12月,多个电信标准组织伙伴共同签署了《第三代伙伴计划协议》。3GPP最初的工作范围是为第三代移动通信系统制定全球适用的技术规范和技术报告。第三代移动通信系统基于的是发展的GSM核心网络和它们所支持的无线接入技术,主要是UMTS。随后3GPP的工作范围得到了改进,增加了对UTRA长期演进系统的研究和标准制定。目前有欧洲的ETSI、美国的ATIS、日本的TTC、ARIB、韩国的TTA、印度的TSDSI以及我国的CCSA作为3GPP的7个组织伙伴(OP)。目前独立成员超过550多个,此外,3GPP还有TD-SCDMA产业联盟(TDIA)、TD-SCDMA论坛、CDMA发展组织(CDG)等13个市场伙伴(MRP)。
  SA WG5主要规范网络(RAN,CN,IMS)及其服务的配置和管理,体系结构和解决方案。工作组将根据相关工作组制定的相关收费要求及解决方案,指定网络及其服务计费的体系结构和协议。
  工作组将确保其工作也适用于融合网络的管理和计费,并可能适用于固定网络。该工作组将与其他3GPP工作组和所有相关的SDO进行协调,以实现与网络及其服务提供,收费和管理有关的规范工作。
  3GPP的规范中,编号为32系列的是网络管理与运营相关的技术规范。为了降低人工运维的成本,提出了自组织网络的系列规划,支持3G,4G以及未来5G网络自配置、自优化、自修复等功能,是网络智能化运维的基础系列标准。
  基于以上分析可知,智能化的配置、性能、故障等管理已经得到了国内外各大标准化组织的关注,并已列入相关的标准化进程。然而目前的标准仅仅是指导性文件,对网络智能方法的具体部署和实现方法,以及在专用网络中的适应性,还需要进一步的分析。   故障数据来源及分类
  通过梳理国内外重要标准化组织在运维管理和故障管理中的重大贡献,总结出故障数据的提取和分类是故障管理中最重要和基础的研究内容。
  告警数据的采集可以通过多种方式和渠道。可以通过SNMP协议中的TRAP主动上报获取,也可以通过定时轮询重要参数,并设定阈值对比进行越限告警;还可以通过操作日志获取,通过SYSLOG接口作为网管系统接收设备系统日志的接口,用于网元日志管理功能。大规模准确的告警数据的获取是进行精准告警的重要前提和基础,设备使用日志、设备错误日志以及用户活動日志均是告警数据的来源,大量训练数据的采集存储是进行可靠神经网络建模的前提和基础,建模数据要求准确、完整和海量。
  通过告警管理可以监控、管理系统自身或管理对象上报的告警、异常或事件,提供了丰富的监控和处理规则,以满足各种监控和处理场景需要,帮助高效监控、快速定位和处理网络故障。
  告警上报、告警订阅、活跃告警同步、告警确认、告警清除、告警查询、告警过滤、告警统计、活跃告警、历史告警、告警同步、静态告警信息查询、告警经验库、性能越限事件告警。告警处理能力和网络中的告警数量、服务器的处理性能、内存大小等有关系,在发生告警风暴时,告警处理能力很容易达到极限。
  常见的告警类型或方式为:
  ①通信告警:被管网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败,如设备通信中断告警;
  ②业务质量告警:业务质量退化问题而引起的告警,如设备拥塞告警;
  ③处理错误告警:软件或处理过程错误而引起的告警;版本不匹配告警;
  ④设备告警:物理资源故障而引起的告警,如单板故障告警;
  ⑤环境告警:设备所在地相关的问题而引起的告警,如设备机房有烟雾而产生的烟雾告警;
  ⑥完整性告警:请求的操作不能正常提供,如篡改用户信息;
  ⑦操作告警:所需服务因不可用、故障或错误调用等问题无法正常运行,如服务拒绝、服务退出、程序性错误等;
  ⑧物理资源告警:物理资源受到破坏;
  ⑨安全告警:安全服务或机制检测到有关安全方面的问题发生;
  ⑩时间域告警:某事在不应该发生的时间内发生;
  ⑾属性值改变:管理对象的属性值发生改变。
  上述所列告警类型是故障管理的精细化分类,均可作为网络故障划分的依据和参考。
  故障管理是网络运维管理五大功能之一,是网络健康度评估的重要因素,是网络运行状态的晴雨表,最初网络故障都是人工手动发现、手动排除的,通常都会影响在网运行业务的正常运行,是以业务中断为代价的;随着大数据人工智能新技术的产生和迅猛发展,故障管理逐渐向主动上报、自动诊断、故障预测等智能性和前瞻性方向演进。
其他文献
网络对于高职院校学生具有极强的粘度和网络传播连锁效应,因此高职网络舆情的应对和处理就尤为重要。基于情感维度的大数据网络舆情情感倾向性分析的研究,可对高职院校网络舆情应对与处理进行实证分析。利用网络爬虫技术和机器学习技术方法对高职院校学生关注的网络舆情进行情感趋势和维度要素的实例分析,根据模型决策结果为高职舆情预警程度的判定、情感维度及状况提供参考。  问题的提出  新闻舆论工作是党的一项重要工作,
随着AMD Zen3架构的锐龙5000系列处理器发布,凭借出色的性能表现和领先的7nm制程,让AMD锐龙5000系列处理器在移动端的表现非常抢眼,并被越来越多的笔记本采用。在众多电商平台上,搭载锐龙处理器的笔记本和整机产品,由于突出的性价比,销量遥遥领先Intel同类型产品。  小米笔记本Pro 15锐龙版轻薄本采用了金属机身,极简外观,不论是质感还是便携性都表现出色,并且这款轻薄本搭载了最新的A
近日,苏宁易购发布一系列公告,宣布终止深圳国际对苏宁易购股权的潜在收购事项。同时,江苏省与南京市国资聯合阿里巴巴、海尔、美的、TCL和小米等成立的江苏新新零售创新基金二期将获得苏宁易购16.96%股权,基金总规模为883亿元人民币。  江苏国资携阿里小米战投苏宁易购或将为商业决策  网经社电子商务研究中心特约研究员陈虎东表示,苏宁2020年遭遇的问题,本质上是一个流动性的问题,其中有很复杂的原因,
realme真我GT系列之前已经推出了真我GT和真我GTNeo两款产品,凭借出色的性能体验,受到了消费者的青睐。现在,realme联手工业设计大师深泽直人带来了真我GT系列第3款产品——真我GT大师探索版。真我GT大师探索版不仅有深泽直人的设计,还有独创的街头摄影模式,加上出色的性能,打造了一部适合旅行探索的品质旗舰。  对于年轻人来说,谁不想来一次说走就走的旅行,旅行是一种探索,是发现美好风景以
鼠标是一种常见及常用的计算机输入设备,可以对屏幕 上指针进行定位,并通过按键和滚轮装置对光标所处位置 的屏幕元素进行操作。同时,鼠标也是游戏中必不可少的输 入设备之一。例如:FPS 游戏中需要用鼠标操作旋转人物视 角和选择目标,MOBA 游戏中需要鼠标操纵人物移动,以及 控制人物的技能释放。
电梯冲顶是电梯事故中较为严重的事故之一。本文针对一起曳引电梯冲顶事故,拟从技术层面上对事故进行分析,通过现场勘查、调取电梯故障记录等手段还原事故发生的经过,分析出导致事故发生的可能原因,为分析同类事故提供参考。同时提出了预防事故发生的措施与建议,避免类似事故发生。
随着信息技术的不断发展,各大高校越来越重视计算机应用基础课程,也在不断地探索基于网络技术的全新授课方式。本文对计算机应用基础教学的现状进行了分析,并探索了互联网加背景下高校计算机应用基础课程如何改进教学模式。  计算机基础课程是高校都有开设的一门基础课程,但现阶段这门课程的教学还存在着学生理论基础弱、教师综合能力较低等问题。  《计算机应用基础》教学现状  课程不符合实际  现阶段学生使用的计算机
网络对每一个人来说都不陌生,现在每个人几乎都要上网,很多人的沟通和交流都是以线上为主。但是随之而来的是信息安全的问题,尤其是在对一些重要文件进行传输时,很可能会受到网络黑客的攻击,窃取重要文件。对于企业来说,如果企业的重要信息有所泄露,可能会丧失核心竞争力,影响了企业的长远发展,所以说保证网络安全非常重要。  现代社会是信息共享的社会,信息安全是人们共同关注的话题。对于网络信息系统来说,应该保证整
进入信息化时代,互联网技术与信息技术被融入到医院的各项经营与管理工作中,基于此,医院需要在现有的基础上提高网络安全管理水平,并结合自身的经营现状制定出系统化的维护措施。本文结合笔者自身经验提出了几点加强网络安全管理的方法,供参考。  树立起正确的安全管理意识  在现代化的医疗体系中,计算机信息管理系统如果想要保证高效率运作,必须将人力、物力、财力资源紧密地关联到一起,在现有的基础之上整合多方力量来
新思科技近日宣布,其Fusion Design Platform已支持三星晶圆厂实现一款先进高性能多子系统片上系统(SoC)一次性成功流片,验证了下一代3nm环绕式栅极(GAA)工艺技术在功耗、性能和面积方面的优势。此次流片成功是新思科技和三星之间广泛合作的成果,旨在加快提供高度优化的参考方法学,实现全新3D晶体管架构所固有的卓越功耗和性能。  新思科技提供的参考流程全面部署了其高度集成的Fusi
期刊