数据中心智能运维管理方案设计

来源 :计算机与网络 | 被引量 : 0次 | 上传用户:blue_violet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文针对数据中心的特点,以智能化运维管理为目标,提出了数据中心智能运维管理方案,设计了运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指导。
  云计算、大数据、物联网及人工智能等新一代信息技术蓬勃发展,数据中心的规划、设计、建设和运维呈现出绿色节能、向资本效率转型、智能化和智能运维管理等特点。随着信息化进程的日渐深化,智能化运维在数据中心的作用已经不仅限于基础设施的建设、应用及工具的维护,数据中心业务对智能化运维的依赖程度越来越大,这决定了智能化运维已经成为数据中心价值链中不可或缺的重要一环。本文针对数据中心的发展趋势和特点,以智能化运维管理为目标,提出了数据中心智能运维管理方案,设计了智能运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指导。
  数据中心面临的挑战
  管理角度
  首先就是经济性,包括网络资源、空间资源和动环资源如何有效地利用,以及缩减能源和维护人员的运行费用;其次是灵活性方面,包括如何识别和降低过度部署和冗余、灵活扩展空间、制冷和供电容量,及更快地响应业务;第三就是可用性方面,如何实现精细化管理、及时排除隐患、处理复杂故障以及实现动态资源管理;第四就是管理性方面,如何进行有效地数据分析支撑决策和规划、实现系统一体化、系统统一协作和快速响应、满足大客户服务等级协议(SLA)和自服务管理等。
  技术角度
  首先面临的挑战就是运维海量数据的存储、分析和处理问题。运维人员必须随时掌握服务器的运行状况,除了常规的服务器配置、资源占用情况等信息外,业务在运行时会产生大量的日志、异常、告警和状态报告等事件。通常每台服务器每个时刻都会产生大量这样的事件,在有数万台服务器的场合下,每天产生的事件数量是数亿万计,存储量在TB级别的。数据中心的服务器规模往往比较大,如何统一、自动化处理这些事件的需求很强烈,毕竟登录查看日志这种方式效率很低,而当前的监控软件只能收集和处理众多事件中的一部分,当服务器数量多了以后,其扩展能力、二次开发能力非常有限。
  其次面临的挑战是多维度、多数据源的复杂性问题。多维度数据不仅包括常用的时间、地点(哪个服务器或组件)、内容(错误码或状态值),还应当包括地区、机房、服务池、业务线、服务和接口等,而数据分析人员则需要使用各种维度、组合各种指标来生成报告、告警规章及Dashboard等。如何从异构的数据源获取数据,还要考虑当其中某个数据源失效、服务延迟时,能否不影响整个系统的稳定性。多数据源还有一个关键问题就是如何做到数据和展现分离,如果展现和数据的契合度太高,那么随便一点变更就会导致前端界面展现部分的更改,带来的工作量会非常大。
  第三个技术挑战就是复杂业务模型下的故障定位。业务模型(或系统部署结构)复杂带来的最直接影响就是定位故障很困难,发现根源问题成本较高,需要多部门合作,开发、运维人员相互配合分析(现在的大规模系统很难找到一个能掌控全局的人),即使这样有时得出的结论也不见得各方都认可。在复杂、异构和各种技术混杂的业务系统中,如果想发现问题并定位故障,在各个系统中就必须有一个可追踪、有共性的东西。然而,在现实中若想用某个体系来“一统天下”基本不可能,因为各种非技术因素可能会让这种努力一直停留在规划阶段,尤其是大公司,部门之间的鸿沟是技术人员无法跨越的。
  因此,面对以上挑战,数据中心应建设“集中化运维、一体化管理、智能化分析、流程化控制”的智能运维管理系统,才能实现智能化运维的管理目标,减少运维人员和维护成本,优化资源管理,从整体上提高智能化运维系统运行协调性、安全性和资源共享性,发挥信息化建设的最大效益。
  总体设计
  总体原则
  智能运维管理方案立足体系建设的角度进行设计,总体原则遵循以下4个方面:
  以完善的运维服务制度、流程为基础
  为保障运行维护工作的质量和效率,应制定相對完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度与流程的规范和约束下协同操作。
  以先进、成熟的运维管理平台为手段
  通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效化。
  以高素质的运维服务队伍为保障
  运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作。
  以智能化运维管理为目的
  智能化运维管理需要实现智能监控、智能检测配置变更以及智能提示3个主要功能,自动提示报警信息,自动触发智能运维变更流程,方便运维管理人员及时采取应对措施。
  2.总体架构
  数据中心运行智能运维管理系统由基础设施运维、支撑服务运维、应用系统运维和安全防护系统运维4部分组成,针对数据中心建立的网络设备、计算设备、存储设备和安全防护设备等进行设备管控,同时对操作系统、数据库和中间件等基础软件,以及一体化探测网络应用软件、数据传输系统应用软件、信息处理与服务系统应用软件等提供软件运行实时监测,智能运维管理系统总体架构如图1所示。



  资源层
  是数据中心中所有的IT资源,是运维服务的主要对象,包括基础动力环境、网络通信资源、计算存储资源、云资源和应用业务系统资源。   服务层
  包括资源接入服务、数据资源及数据支撑服务和共用的支撑服务。资源接入服务提供各种类型资源的接入功能,负责对资源的运行数据进行采集、控制等。数据资源及数据支撑服务负责对资源的基础信息、资源状态、性能和容量等数据进行采集、存储、管理和分析等。共用服务的基础支撑软件是构建系统所需基础软件运行支撑、规范信息交换流程、提升系统间数据互联互通互操作的能力,提供系统运行、集成手段的基础软件系统,为运行管理保障系统各业务应用软件的研制与综合集成提供共性基础支撑。
  监控监测告警
  主要通过各种管理协议和管理接口适配,实现各类管理对象的管理信息采集和运行状态感知,收集高质量、可信和准确及时的信息,提供对上层运维服务的支撑,保障业务流程的有效运行,所管理的对象包括:网络、服务器、存储、安全、机房动力环境及应用服务系统等。
  运维服务管理
  是为使服务达到其质量目标而以确定的方式实施的一系列规范化管理服务。运维服务管理流程从流程的目标和范围、流程的触发、流程的输入和输出、流程与其他流程的关系、流程的活动、流程的参考设计、流程中的角色和职责以及流程的关键度量指标等方面对流程进行定义。
  资源配置管理
  主要包括资产管理和CMDB配置管理,资产管理服务是提供资源基础信息、配置信息等管理;
  运维自动化管理
  为管理人员提供运维自动化能力,提供批量调度执行运维任务,简化运维工作,应对大量简单重复运维动作,比如系统批量补丁升级。
  统一门户及展现管理
  提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查询和相关操作。
  组成功能
  通过对运维体系的分析,依托业界现有运维相关的小工具小系统,本文提出了一体化数据中心智能运维管理系统的方案,主要包括综合门户系统、资产配置管理系统、健康监测系统、运维自动化系统、运维服务管理系统和运维对外开放接口系统。这些系统可进行单独部署运行,也可组合形成大系统。系统组成功能如图2所示。



  綜合门户系统
  提供统一的综合运维平台入口,使运维人员能够基于统一的整合管理界面,进行运维管理的信息查看和相关操作。
  资源配置管理系统
  提供整合数据中心及项目资产基本信息、资产关联信息、资产生命周期的管理功能,同时对系统运行的配置信息进行管理。
  健康监测告警管理系统
  系统通过自动化的健康监测手段,对数据中心的动力环境、IT基础设施、应用系统进行全方位的监测,同时从状态、性能、容量多个维度判断系统的运行情况,一旦出现问题则通过声光电、短信和邮件等多种方式进行告警通知。
  运维服务管理系统
  服务流程管理产品遵循ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模式,将人、技术与流程进行有效地融合,通过流程管理平台,制定内部运维流程,将运维团队的服务产品化、标准化,提供了服务过程的设计、过程记录、监督与考核等事务的管理能力,同时提供了对IT的各项服务、能力进行整合的职能。服务流程管理产品以高效的自主框架为流程处理引擎,并自主研发图形化的自定义流程、流程状态监控、流程定制工具,方便用户按照实际需求进行定制流程与编制对应的工单。
  运维自动化管理
  通过自动化的方式批量完成运维任务,降低运维工作量,规范运维操作,同时支持故障与处理脚本关联,实现故障自愈等功能。
  部署架构
  一个典型的数据中心网络架构中分为业务网络、存储网络和管理网络等子网络,运维系统需要与各个子网进行对接,以接收各个子网的数据。在监控过程中采集器部署到与被监控网络互通的网络域,采集器采集数据后,发送给传输消息队列,这要求采集器与消息队列的网络能够互通。智能运维管理系统部署架构,如图3所示。



  当前云计算IaaS平台的部署,经常将网络划分成不同的子网,不同的子网传输不同的流量,既方便运维管理,也方便租户使用,既安全又互不干涉。
  管理网:适用于进行运维管理,传输运行数据、管理数据。
  业务网:适用于业务系统的流量,适用于业务系统使用,比如OA系统等。
  存储网:适用于部署了基于x86架构的分布式存储、虚拟存储或者大数据存储平台,需要独立的存储网络支撑存储流量。
  SAN网:用于采取集中存储的数据存储环境,此网络属于光纤网络,监控系统不会接入到光纤网络。
  工控网:使用于机房环境监控。
  如果网络进行了管理、业务子网的划分,那么要求部署监控系统采集器的服务器或者虚拟机具备至少3个网卡、3个网址,分别属于不同的子网。
  监控系统实现了对机房环境、网络设备、安全设备、服务器硬件、操作系统、中间件、数据库、业务系统以及日志等数据的监控,不同的监控对象,监控数据需要在不同的网络中获取。应用服务器采用双机冗余,部署资源管理、策略管理、系统管理、告警模块和报表模块等管理模块,部署消息队列、缓存、数据解析分析、外部接口等基础软件模块。
  技术路径
  微服务架构设计
  随着微服务等新兴架构的提出,在框架轻量解耦、需求敏捷响应、结构自动演化、资源弹性伸缩等方面有了长足进步,但也会带来性能损耗、整体资源要求高以及运维复杂等缺点。在数据中心智能运维管理系统建设过程中,需要充分结合现有信息系统特点和现状要求,考虑机动环境快速构建、服务运行自动扩容等场景,借鉴并兼容微服务中基于容器技术的服务持续集成、动态迁移、弹性扩展及监控治理等技术,实现服务持续集成、部署迁移和监控治理等能力,提供更精准敏捷的信息服务能力。   基于跨平台监控管理功能的设计及应用
  随着计算机技术、网络技术、通信技术和安全技术的飞速发展以及经济全球化的加速,以网络、主机、存储、数据库和中间件作为主要信息化组成部件来说,拥有着交换、传输数据等各种业务网络,其设备数量也非常庞大。运行管理技术是业务系统正常、经济效益和安全运行的重要保证。对于在复杂的多技术应用的场景下,如何使监控管理功能适配多种技术,并且能够运行在多种技术平台,是必须要考虑的技术选择问题。基于跨平台的监控管理就是通过一个管理平台对互连的多个不同专业的IT运行环境进行全面的集中管理,对所提供的业务进行端到端的管理,实施跨专业的故障定位和故障排除。它具有以下要求:管理所有IT资源、将各个系统的告警和性能信息统一到一个平台、实现故障的跨专业综合分析以及使用统一的用户界面(GUI),使网络管理和维护人员简便易学。
  基于分布式架构监控管理功能的设计及应用
  分布式架构设计,天然就有多个节点,很容易通过主备、冗余、哈希等手段实现计算和存储冗余备份,从而实现高可用。当然分布式架构多个节点的设计也带来了保持一致性和高可靠性上的巨大挑战,分布式系统的存储往往会设计成多份冗余,并尽可能在机架、机房甚至城市维度将冗余的数据分散在多处,以保障系统的高可用和业务连续性。随着分布式架构等新兴架构的提出,在框架轻量解耦、需求敏捷响应、结构自动演化、资源弹性伸缩等方面有了长足进步。考虑提高系统高稳定性及可连续性等业务使用场景,借鉴分布式架构等技术,采集层、分析处理器、应用层、数据库存储层实现多节点集群实现,实现服务高效稳定运行、可持续扩展等能力。
  基于有代理和无代理相结合的数据采集技术
  有代理Agent监控方式是国外一些大厂产品普遍采用的方式,作为整个管理系统的组成部分,Agent的主要功能是用来采集监控的基础数据。Agent监控方式的最大问题就是需要在每个被监控的系统终端安装一个代理软件,这样整个系统的部署及维护难度较大。而且运行在每个被监控端的代理一旦出现问题,还需要登录到系统上去维护。Agentless监控方式,是指在被监控应用所在的主机上面,不安装代理软件采集相应的信息,而是通过一些标准的协议,包括主机使用的SNMP,Telnet,SSH,WMI等,以及应用使用的JMX,JDBC,ODBC等实现监控。对比Agent的监控方式,Agentless在易用性、可维护性和性能损耗上的优势明显。同时,数据采集是整个管理平台的基础,负责采集平台运行需要的数据,在被监测对象上部署Agent的方式,可能对业务系统产生冲突带来不安全因素。Agent监控方式的优势包括在监控资源端采集的数据经过压缩处理后传输给监控服务器、对网络带宽占用比较低、支持二次开发等。鉴于Agentless和Agent的各自优缺点,综合2种方式的特性,支持2种方式的监控采集,尽量做到扬长避短。
  基于ITIL以服务为中心的运维服务管理
  ITIL即信息技术基础架构库,主要适用于IT服务管理(ITSM),ITIL为IT服务管理实践提供了一个客观、严谨和可量化的标准与规范。结合业界运维过程管理标准,本系统以ITIL和ISO20000为信息化服务流程规范,统一制定信息化服务流程,并由运维流程子系统进行统一管理,对服务流程实行统一集中监控,提供直观、美观且图形化的监控视图,动态实时反映各项服务流程的执行情况和效率。通过规范化的流程梳理,定义完善的服务台统一接入、服务请求和事件处理流程、以及其他信息化运维必须的流程。系统提供丰富多样的统计分析工具和图表展示,以报表形式形成信息化运维管理周报及月报,用于分析和统计各项服务管理流程的执行情况及效率,为不断优化服务流程、提高運维服务效率和用户满意度提供依据。
  基于自动化技术的配置管理数据库搜集维护过程管理
  配置管理数据库(Configuration Management Database,CMDB)存储与IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。过程管理主要是完成资产和配置的数据增删改查操作,微软的.net架构和J2EE架构是比较成熟的2类技术。采用自动化的技术对CMDB的配置信息进行自动维护,可极大地降低人工维护的工作量、提高数据的准确性,充分发挥CMDB在运维中的基础作用。本系统模块的侧重点在配置和管理系统的状态上,无需安装Agent,主机通过SSH协议与监控对象进行通信,从运维成本和维护性上来说,只需关注主机的运行状态,不会增加额外的运维成本。由于在运维服务管理选择了J2EE技术,因此本系统的基础技术路线也选择J2EE体系。保证底层技术的一致性。在CMDB数据的维护中,部分数据采用人工和基于SSH协议的自动化结合的方式进行。
  数据中心的智能运维管理的实现,不仅减少了传统人工运维管理下的时间延迟,将运维管理人员从重复性工作中解放出来,提高了工作效率,而且,基于一体化运维管理平台的智能运维管理系统还可以实现自我状态监控,对运维管理中的各种风险进行预估,减少因为智能运风险导致的成本支出,在今后,特别是大型数据中心的运维管理中,将发挥越来越重要的作用。但是对于基于数据中心运行的业务系统的运维管理,还需要针对不同业务系统,开发定制具体功能模块,这也是智能运维管理系统的短板。
其他文献
2020年realme Q2系列销量超过了一百万台,销量上的成功意味着Q2系列有着超强的产品力,现在演化到了realme Q3系列了,一起看看更新换代后的Q3 Pro能在千元价位玩出什么花样。  realme真我Q3 Pro共有3种配色,分别为萤火虫、电光蓝、引力黑,萤火虫是3款里面最具特色的版本,背壳主色调为淡黄色,与“realme黄”相呼应,背壳为磨砂质感,防指纹的同时也提升了持握手感。  萤
期刊
随着人们生活水平的不断提升,对于生活品质的追求同样也在不断变化,客厅作为娱乐的主战场,很大一部分的影音娱乐生活都在这里展开,那么一款出众的音响一定是品质生活的进阶之选,今天来看一款客厅或者书架进阶版的有源HiFi音响——惠威D1500。  惠威D1500有源音响外观采用了经典的设计风格,百看不厌。在配置上,音响搭载了26 mm的金属硬球顶高音和8英寸超大中低音单元的豪华配置,带给用户澎湃的听觉体验
期刊
很多人都说苹果手机不能截长屏,不像安卓手机自带长截图功能,这也让不少果粉所羡慕。下面给大家解锁3种截屏方法。  物理按键截屏  全面屏iPhone:同时按住锁屏键+音量上键;  非全面屏iPhone:同时按住锁屏鍵+Home键。  虚拟按钮截屏  如果你一直在用《iPhone小白点》,可以打开“设置”.“辅助功能”.“触控”.“辅助触控”,将“单点”改为“截屏”,这样就能快速截屏了。  双击背面截
期刊
近年来,人们对社会公共安全问题的关注度不断提高。视频监控系统的普及成为创建“平安城市”,提高人民社会安全感的有效保障。当下,解决从监控图像与视频中寻找已知人物的行人重识别( Personre-identification)问题被迅速提上日程,在人工智能领域,神经网络与深度学习算法的应用成为解决此复杂问题的重要途经。  在深度学习领域,神经网络训练需要大量被标注的数据集样本,而在大数据快速发展的今天
期刊
高职学生学习计算机课程是为培养自身的计算机应用能力,为将来的学习和工作打下坚实的基础。高职教学也要从学生的就业角度出发,讲授计算机应用的概念和基本知识,提高学生操作计算机的能力。高职教师需要对教学的方法和技术进行改进和完善,采取多种教学方法加强彼此之间的联系,促进教学效果的提高。  高职教师在教学时需要从学生的角度出发,高职学生在学习中的侧重点是面向就业,所以教师在教学中需要注重教学的实用性,明确
期刊
近日,软件智能公司Dynatrace宣布,据2021年4月《Gartner应用性能监测(APM)关键能力》的报告所述,其软件智能平台在5个使用场景中摘得了其中4项最高分。Gartner依照5个使用场景对15家廠商的解决方案进行了评测。  Dy11atrace获得了开发运维/应用开发、网站安全工程/云运维、IT运维以及数字化体验监测使用场景的最高分,并且在应用所有者/业务部门使用场景中位居第2。  
期刊
在远程工作的新时代,基于云计算的团队协作是必要的,但它也可能带来风险。分析师和首席信息安全官对于如何确保组织的安全进行了分析和阐述。  自从新型冠状病毒疫情发生以来,很多人在家远程办公,因此也进入了远程工作的新时代。团队协作SaaS的采用率因此迅速增长,云计算协作安全性面临的问题也是如此。根据安全服务提供商McAfee公司的调查,在2020年1-4月,对企业云帐户的外部攻击增加了630%,威胁参与
期刊
近日,国家统计局北京大学数据开发中心签约暨揭牌仪式在北京大学举行。北京大学校长郝平,国家发展改革委副主任兼国家统计局局长、党组书记宁吉喆出席仪式。北京大学常务副校长龚旗煌,副校长张平文,校长助理、秘书长、党委办公室校长办公室主任孙庆伟与国家统计局党组成员、副局长盛来运参加活动。仪式由北京大学光华管理学院院长刘俏主持。  签约暨揭牌仪式开始前,郝平在临湖轩中厅会见宁吉喆一行,双方就数据开发中心的发展
期刊
育碧旗下的《彩虹六号:围攻》深受玩家们的喜爱,而《彩虹六号》系列新作《彩虹六号:封锁(Rainbow Six Quarantine)》是一个专注于PvE的合作射击游戏,建立在《彩虹六号:围攻》爆发模式的基础上。此前该游戏原计划在2019年推出,不过后来发生延期,目前游戏的最终名称还没有正式确定。在不久前,有关《彩虹六号:封锁》视频被通过直播泄露,近日育碧官方对此作出了回应,并承诺今年晚些时候公布新
期刊
Photoshop是计算机、美工和电商专业的专业课程,同时也是计算机基础课的一部分,是一门理论与技能相结合的课程,应用广泛。随着5G时代直播的到来,社会对PS专业人才的要求会更高,作为教师如何改进教学模式、提升教育质量,制定合适的学生评价机制迫在眉睫。  研究背景  教材、教法与互联网、大数据发展不同步,与就业、升学需求不相符  学校教材一般多年调整一次,有的甚至5~6年没更新。互联网经济特别是电
期刊