基于智能检测的容器云快速故障恢复和弹性调度引流

来源 :科学与生活 | 被引量 : 0次 | 上传用户:shuangdei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着互联网与信息技术高速发展,基于Docker(应用容器引擎)技术的云平台正在被快速广泛应用。依托实时监测的海量数据,利用Apriori[1]、NLP(Natural Language Processing,自然语言处理)、SBD智能等算法进行实时告警收敛与根因定位,以及结合容器资源编排能力、自动化能力,提出了一套基于智能检测的方案,打造云原生智能故障处理能力,提高容器云平台的稳定性与安全性。
  关键词:云平台、容器、算法
  1概述
  移动业务支撑系统容器化、微服务化改造持续深入,各类新型基础设施引入和国产化进程推进,为支撑物联网、“任我用”、电商等新业务形态持续发展发挥了重要作用。随着微服务的大量应用,其大流量时代产品体系的需求不断的变化、业务的增长,月结高并发的业务,以及分布式应用架构在运维,监控,发布上都面临着更加复杂的挑战。
  兴起的AIOps( Algorithmic IT Operations,基于算法的IT运维)相关研究致力于从海量监测数据发现并定位异常指标和根因,利用大数据分析、机器学习等人工智能技术来挖掘与总结大量数据背后的规律,以实现云平台中全量指标的异常检测与根因定位。
  本文设计并实现了一个智能检测方案系统。在故障感知、决策基础上,拉通基础设施、应用框架和运维工具能力,实现了业务系统的智能检测、决策和故障自愈的全自动闭环运维。
  2系统总体架构
  本文设计的系统总体架构主要分四个子模块:资源管理模块、指标采集与异常检测模块、根因定位模块、故障恢复和弹性调度模块。
  资源管理模块通过K8s的API(Application Programming Interface,应用程序接口)自动发现采集容器资源对象。使用标签自动分组功能将对象建立关联关系。
  指标采集与异常检测模块在Pod对象里部署采集探针来收集系统的拓扑、性能指标以及调用链等数据,将收集到的指标数据经过异常检测模块产生指标告警数据传输至根因定位模块,为根因分析提供海量数据依托。
  根因定位模块利用指标采集与异常检测模块对收集到的数据进行实时检测与分析,针对不同类型数据产生的异常生成不同的告警,并将这些告警传入根因定位子系统,以进行后续根因指标的定位。根因定位子系统以Apriori算法与告警收敛算法为核心,提出了一个性能高、速度快的根因定位方案,可以在保证运行效率的同时准确地定位到根因指标。
  故障恢复和弹性调度模块以应用维度配置故障自愈场景和自愈策略,根据决策指令对容器进行作业编排。
  3设计与实现
  3.1资源管理模块
  本模块主要功能利用K8s的API对容器云环境中的资源对象进行自动收集与管理。标签自动分组功能实现对应用、应用实例、容器对象间的关系按标签分组自动绑定关联关系。
  通过配置K8s API连接信息,定时自动扫描并收集K8s集群中的Cluster、Node、Deployment、Service、Pod等容器对象信息并进行统一模型管理。
  3.2指标采集与异常检测模块
  本模块主要功能是实现容器云平台中稳定性信息的采集与异常指标的及时检测从而产生异常告警信息。结合了传统的监控数据指标与K8s的节点健康状态数据。
  信息采集和异常检测系统可以实时检测指标数据中的异常,并针对不同类型的异常生成不同的告警。告警产生是基于静态阈值判定的即时性告警。告警类型有预警和严重级别。每个指标的每种告警级别有不同的静态阈值,支持自定义设置。基于告警收敛功能,实现在告警上报间隔时间内将不会再次发送相同警告。告警信息包含告警级别、告警时间、告警对应的主机/实例信息(ID、IP)以及告警指标名称、当前值、阈值等内容。
  3.3根因定位模块
  本子模块的主要功能是根据告警中的异常指标精确定位出根因指标。根因定位子系统可以根据告警信息准确定位根因指标。该子系统有两个核心算法,分别是Apriori算法与告警收敛算法。
  3.3.1、Apriori算法
  利用Apriori算法来挖掘告警事件之间的关联规则,利用支持度、置信度、提升度来筛选其中的强规则,生成根因规则图谱,帮助分析与定位异常的根因。
  3.3.2、告警收敛算法
  告警收敛算法可以对发现的根因指标进行进一步的定位与合并。当故障发生时可能会有大量的指标发生异常并产生告警,Apriori算法生成的根因规则图谱可以从全部的异常指标中筛选出一部分关联性较强的指标作为根因指标候选集,然后告警收敛利用NLP和SBD算法從以下三个方面来对根因指标候选集进行进一步筛选与合并。
  3.4故障恢复和弹性调度模块
  本模块主要功能包括基于应用维度的检测配置、根据根因指标进行容器编排,以实现容器云平台的快速故障恢复和弹性调度引流。为不同的根因指标配置了不同的调度引流或故障自愈策略,并为每个策略编写相应的编排作业脚本,将作业脚本配置到脚本作业执行模块,调用K8s提供的API对容器进行编排与操作,以实现弹性扩缩容与故障恢复。
  4总结
  通过实验数据和结果发现,基于智能检测的方案可更好地解决云化环境下依赖硬性规则实现弹性扩缩容、故障处理、负载均衡场景的弊端,减低运维人员监控和处理成本,提高运维速度和质量,真正实现智能调度、故障自愈的能力。
  该方案的创新点主要有以下几点:
  (1)容器云+AI+调度:通过AI智能感知服务状态和健康状况,智能调度达到服务隔离、摘流、弹性扩缩容。
  (2)容器云+AI+引流:通过AI分析自动修改云环境下微服务网关配置,达到智能引流和防止服务雪崩的问题。
  (3)容器云+AI+故障处理:提供全链路云化环境下的指标采集->故障发现->故障定位->故障自愈->服务感知的全链路处理解决方案。
  (4)对Apriori关联分析算法进行简化,只分析两两告警事件之间的关联规则(二频繁项集),通过基于大量的两两告警事件的关联规则合成根因图谱,替代单纯使用Apriori算法进行多频繁项集的关联规则的计算,大大降低了该算法的时间复杂度,最终使根因定位具有较高的准确率和较快的性能。
  参考文献
  [1]杨秋翔,孙涵.基于权值向量矩阵约简的Apriori算法[J].计算机工程与设计,2018,39(03):690-693+762。
  [2]金海,吴松,王行军.容器云环境中流数据处理系统的弹性资源调度方法及系统:中国.CN201710288587.4[P].2017-09-22
其他文献
目的 探讨直肠癌经腹前切除术后吻合口漏的临床特点,指导临床预防和诊治.方法直肠癌经腹前切除术769例,并发吻合口漏55例,发生率为7.2%.术后患者体温、血象、体征及引流物异常有助于吻合口漏的早期诊断.治疗以个体化原则进行.结果52例(94.5%)漏口愈合,平均时间16 d,另3例分别在35、58、62 d愈合.随访2个月~5.5年,8例发生吻合口狭窄,47例排便正常.结论预防为主,早期诊断,综合
摘要:习近平指出,实施好乡村振兴战略,办好农村的事情,关键在党。基层党组织处在农村工作第一线,是党在农村工作的宣传者和执行者。本文以潼南区上和镇为例,从上和镇产业发展现状为着力点,深入分析现阶段产业发展的不足,并提出具有针对性的意见建议。  关键词:产业振兴 基层 党组织  一、上和镇产业发展现状分析  近年来,上和镇坚持把“三农”工作作为全镇工作的重中之重,持续深化农村改革,不断加大资金投入和支
目的 探讨参芎葡萄糖注射液对冠心病患者运动耐量和血流动力学的影响,了解其对冠心病的治疗作用.方法 120例冠心病患者随机分为常规治疗组和参芎治疗组,分别测定2组运动耐量,参芎治疗组加测血脂和血流动力学.结果 参芎治疗组患者运动耐量较常规治疗组明显提高,差异有统计学意义(P<0.01).参芎治疗组治疗后纤维蛋白原浓度明显降低(P<0.01);血浆比粘度、红细胞比容(Hct)、血小板聚集率有所降低(均
摘要:本文主要介绍了MATLAB图形界面设计的案例教学模式,以植物叶面积测量系统的设计为例,详细介绍了如何利用MATLAB建立GUI界面,展现出MATLAB设计用户界面巨大的简洁性和方便性。  关键词:MATLAB 图形界面设计 GUI 案例式教学  MATLAB 是由美国Math Works公司发布的面向科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以
目的 探讨纤维胆道镜在复杂性肝内胆管结石治疗中的临床应用价值.方法 回顾性分析应用胆道镜治疗37例复杂性肝内胆管结石患者的情况及术后2年内的随访资料.结果 37例患者均有一、二级的胆管狭窄,其中17例(17/37)伴有三级胆管开口处狭窄;术后1年随访,21例Ⅲa型以下的患者结石全部排净,结石取净率58%(21/37);三级胆管内有残留结石16例,其中11例(11/16)有三级胆管开口处狭窄,然而有
目的 观察自体骨髓干细胞移植治疗糖尿病足的临床疗效.方法 选取20例糖尿病足患者应用自体骨髓干细胞移植进行治疗.结果 自体骨髓干细胞移植能有效地增加糖尿病足患者的下肢血流,使疼痛得到快速而有效的缓解,伤口愈合,踝肱指数显著上升.结论 自体骨髓干细胞移植治疗糖尿病足简便、安全、有效。
摘要:基于通信及互联网技术的多元化发展,在实现数据管理与信息分析的过程中,可为数据管理活动提供技术支撑,对数据管理的智能化、信息化、技术化发展等有积极作用。以数据管理要求为依据,针对数据管理过程以及信息技术应用等方面进行控制,在对数据管理过程进行优化的基础上,旨在实现通信、互联网技术下的数据管理水平提升。  关键词:通信;互联网技术;数据管理  引言  互联网技术视角下的数据管理与控制,对实现数据
目的 探讨癫痫持续状态并发全身炎症反应综合征(SIRS)致多器官功能障碍综合征(MODS)的可能机制及一氧化氮(NO)、一氧化氮合酶(NOS)在其发生发展中的作用及意义。方法观察癫痫持续状态并发SIRS及导致MODS的发生率。应用硝酸还原酶法及比色法动态监测78例癫痫持续状态患者血清NO及NOS的水平,并以32例健康人为对照。结果癫痫持续状态并发SIRS的发生率为47.43%(37/78).其中5
期刊
【摘要】采用团体心理辅导对江西省某高校随机选取62名高道德推脱水平的大学生入党积极分子,以青少年道德推脱量表为工具测量,进行为期8周、每周一次、每次 1-2小时的干预,在干预前、干预后对被试进行测验,结果发现:实验组与对照组大学生入党积极分子在道德推脱总分以及多维度得分上均存在显著差异,且干预后得分显著降低。运用团体心理辅导对大学生入党积极分子进行干预,可以有效降低其道德推脱水平。  【关键词】道
目的 探讨血管内皮生长因子(VEGF)在阻塞性睡眠呼吸暂停低通气综合征(OSAHS)病理生理过程中的意义.方法 ①应用酶联免疫吸附法检测40例OSAHS患者(OSAHS合并心脑血管病26例,未合并心脑血管病的单纯OSAHS 14例)和30例正常人的血浆VEGF浓度.②将26例OSAHS合并心脑血管病患者分为2组:15例经鼻持续正压通气(nCPAP)治疗(nCPAP治疗组);11例OSAHS合并心脑