论文部分内容阅读
【摘要】 整个大数据中心生命周期中,大数据中心运维管理是大数据中心生命周期中历时最长的一个阶段。能源大数据中心的建设建立成熟的运维管理体系是十分必要和重要的,并且需要结合自身的业务特点,引入先进的最佳实践和规范化的管理流程,通过运维服务及时掌握大数据中心资源现状,反映大数据中心资源的可用性情况和健康状况,创建一个可知可控的IT环境,从而保证能源大数据中心内部署的IT各类业务应用系统的可靠、稳定、安全运行。
【关键词】 数据中心 运维体系 能源互联网 运维工具
一、运维体系建设的必要性
随着信息化建设的不断推进,使得作为信息承载的主体-数据中心本身的运营管理变得越来越重要,工作量越来越大,对安全性、可用性和运维管理等要求越来越高,数据中心的运维也就逐渐经历了多次演变优化并将其概括分为四个阶段,包括基本的人工运维,以工具及流程来驱动人工的标准化运维,通过预设逻辑实现的自动化运维,通过辅助分析实现的智能化运维。
运维的演变实际可以理解为是由运维到运营的一种转化提升的过程。传统人工运维的不可控性和失误通过标准的流程化运维作业这一手段,实现了有效的减少和避免;标准化运维的粗颗粒度和人工操作被自动化运维的预设逻辑和自动控制功能替代,从而达到精细化、自动化的阶段目标。
目前各大互联网公司已有不少成熟的数据中心基础环境智能化运维案例,例如谷歌公司使用Deepmind开发的人工智能系统,为数据中心提供冷却方案,减少了冷却能耗的40%,就是一个将智能系统应用于数据中心,通过获取学习运维方法,制定出对数据中心基础环境运维有益的运行方案,达到优化数据中心运行的目的。再比如,阿里的智能机器人,在巡检中完成基础环境设施的温度、湿度、空气质量、电气参数、空调参数等监测的工作,同样是代替了人工操作,同时还提高了人员安全系数。
二、数据中心运维目标
数据中心运维目标是通过建立规范先进的运维服务体系,充分发挥数据中心的基础服务功能,为在数据中心进行信息系统建设与部署、日常运行、及回收提供全生命周期的资源、通信及安全等服务,实现IT的业务价值,提升数据中心用户的满意度。运维体系要具有前瞻性的风险预测能力、智能动态服务能力、人工智能决策能力。
运维管理在数据中心建设全寿命周期内是最后一个,也是历时最长的一个阶段,也是最重要的一个阶段。
为确保数据中心安全稳定的运行,数据中心的运维管理主要针对数据中心的合规性、可用性、可靠性、经济性而建立起一套完整科学的管理体系,从而使整个数据中心运维工作具备规范的管理章程,严格的管理制度,高效负责且训练有素的运维团队是数据中心运维成功关键;而从大型数据中心的长期运营角度考虑,持久改进与有效的成本控制是一个现代化数据中心科学管理的必须。
三、能源大数据中心运维体系主要架构
为确保能源大数据中心运维服务水平管理及运维指标体系建设的先进性、开放性和前瞻性,运维体系建设需要参考大量的业界标准和行业实践,主要包括ITIL V2、ITIL V3、ISO 20000、COBIT等。从而能源大数据中心运维服务水平管理及运维指标体系能够尽可能兼容多种标准,并在不同版本的标准下实现平滑的过渡。
能源大数据中心的运维管理可以分为运维人员(People)的管理、数据中心设备及设施的管理(Facility)的管理及运维流程(Process)的管理。
运维人员的管理:包括数据中心内容运维管理人员、技术支持人员、各个系统一线操作服务人员以及第三方支持人员等
数据中心基础设施管理:指保障数据中心的IT设备正常运行所必需的电力系统、空调与制冷系统、消防系统等。
数据中心IT基础架构管理:制数据中心业务承载的具体单元如网络、安全、服务器、数据库、应用平台等
管理工具自身的管理:包括IT基础设施的监控软件、报警系统、工作单系统等
运维流程的管理:包括了服务提供与服务支持,分别对应了几大服务内容。
服务提供:服务水平管理、、容量管理
服务支持:配置管理、事件管理、问题管理、变更管理
另外也包括了数据中心各个系统的管理规章制度。
结合多年来对数据中心运行服务积累的经验,以ITIL和ISO20000标准的服务管理控制体系为指导与依据,总结出一整套完整的适合能源大数据中心运维服务管理体系架构。
IT运维管理规划应充分考虑能源大数据中心现有的管理经验基础(包括组织、人员、流程、工具),结合业界先进的运维管理理念与实践,量身设计能源大数据中心IT运维管理体系架构,形成既标准、专业、高效、统一的运维标准,又充分满足能源大数据中心实际需要的一体化运维管理体系,强调“以业务为中心”的IT运维管理策略,更快得知问题,用自动化运维工具尽快解决,确保业务生产的稳定优质运维。
四、能源大数据中心运维人员组织
能源大数据中心属于国家A级标准的数据中心,要求运维人员需做到全年7X24 小时的值守。UI 在美国的数据统计表明,全天候的值守可以将数据中心故障的发生率降低50%,对于提升整体数据中心的可用性有相当大的影响。下图为数据中心运维人员的岗位设置思路:
数据中心运维人员岗位设置图
运维经理统筹全局,负责数据中心基础设施运营管理,达到要求之服务水平;技术专家负责包括但不限于配电、暖通、弱电、网络、安全、服务器专业的相关技术工作;运维主管则是主要面对数据中心基础设施部分的一線运维事务管理;安全质监员主要负责运维安全管理,防止非安全操作和安全隐患时间的发生;资产管理员负责运维整体资产、备品备件管理;维护维修员负责机房基础设施的日常维护与故障处理,根据各专业规程、指标、操作手册和设备说明书的规定,按照维护周期执行各专业维护工作;巡检值班员负责机房日常巡检与监控值班,执行每日设备巡视巡检,记录设备运行数据,发现报警及隐患问题,立即上报安排跟进维修。 五、能源大数据中心运维工具
数据中心运维工具,是数据中心开展日常运维工作的重要手段之一,通过合理的使用运维工具可以是运维管理人员实时掌控整个数据中心运行状态,并且极大的减少运维人员的工作压力。
数据中心运维工具主要分为:硬件工具和软件工具。其中硬件工具主要是万用表、测线仪、光纤测试仪、控制线缆、KVM等标准化工具,主要面对数据中心基础运维工作,解决显而易见的实际问题。随着数据中心规模的扩大,软件工具已经是数据中心必不可少的重要组成部分,贯穿于数据中心运维工作的各个环节。
能源大数据中心软件运维工具主要由以下三部分组成,具体如下图所示:
1、基础设施管理系统(DCIM)。基础设施管理系统是是将IT(信息技术)和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。通过软件、硬件和传感器等,对数据中心IT设备和基础设施进行实时监控和管理。
2、IT基础架构管理系统(ITIM)。IT基础架构管理系统是基于IT基础架构的一体化运维管理平层次化、模块化的设计理念,以全开放的、组件化的架构原型。通过MDP消息总线进行集成,将资源监控、CMDB、运维流程管理融为一体。此外系统还提供了分布式、分级式的部署模式,二级代理支持横向扩展,为客户提供可靠的、可扩展的、高性能的一体化运维管理平台。整个系统还提供开放的restful web services接口来持续集成。
3、数据中心一体化管理平台。数据中心一体化管理平台是汇集着运维事件、变更、问题、知识管理的核心平台,是数据中运维人员实现数据中心管理的入口,体现了数据中心整个运维工作的效果和成绩。数据中心一体化管理平台需要与IT基础架构管理系统和基础设施管理系统对接,从而实现整体运维数据的联动和拉通。
六、系统验证故障应急预案
为加强对能源大数据中心基础设施设备故障等突发事件的控制,需要根据能源大数据中心具体情况,将应急保障流程充分结合到系统测试验证工作和运维工作中,通过验证测试平台,对运维过程中可能的出现的故障场景进行模拟,检查运维应急流程的合理性和可操作性,发现应急流程中的风险,为提高运维操作的可靠性提供依据,保障数据中心基础设施运维管理的设备故障应急保障方案有效可行。
七、结束语
为确保能源大数据中心安全稳定的运行,在需要具备高效负责且训练有素的运维团队的同时还需要具备科学先进的运维管理体系,二者相辅相成,是能源大数据中心成功运维管理的关键。
参 考 文 献
[1]努尔·白克力.能源发展“十三五”规划[M].中国电力出版社,2017.3.
[2]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].浙江人民出版社,2013.1.
[3]楊正洪.智慧城市:大数据、物联网和云计算之应用[M].清华大学出版社,2018.10.
[4]刘韶林.物联网技术在智能配电网中的应用[M].中国电力出版社,2019.4.
【关键词】 数据中心 运维体系 能源互联网 运维工具
一、运维体系建设的必要性
随着信息化建设的不断推进,使得作为信息承载的主体-数据中心本身的运营管理变得越来越重要,工作量越来越大,对安全性、可用性和运维管理等要求越来越高,数据中心的运维也就逐渐经历了多次演变优化并将其概括分为四个阶段,包括基本的人工运维,以工具及流程来驱动人工的标准化运维,通过预设逻辑实现的自动化运维,通过辅助分析实现的智能化运维。
运维的演变实际可以理解为是由运维到运营的一种转化提升的过程。传统人工运维的不可控性和失误通过标准的流程化运维作业这一手段,实现了有效的减少和避免;标准化运维的粗颗粒度和人工操作被自动化运维的预设逻辑和自动控制功能替代,从而达到精细化、自动化的阶段目标。
目前各大互联网公司已有不少成熟的数据中心基础环境智能化运维案例,例如谷歌公司使用Deepmind开发的人工智能系统,为数据中心提供冷却方案,减少了冷却能耗的40%,就是一个将智能系统应用于数据中心,通过获取学习运维方法,制定出对数据中心基础环境运维有益的运行方案,达到优化数据中心运行的目的。再比如,阿里的智能机器人,在巡检中完成基础环境设施的温度、湿度、空气质量、电气参数、空调参数等监测的工作,同样是代替了人工操作,同时还提高了人员安全系数。
二、数据中心运维目标
数据中心运维目标是通过建立规范先进的运维服务体系,充分发挥数据中心的基础服务功能,为在数据中心进行信息系统建设与部署、日常运行、及回收提供全生命周期的资源、通信及安全等服务,实现IT的业务价值,提升数据中心用户的满意度。运维体系要具有前瞻性的风险预测能力、智能动态服务能力、人工智能决策能力。
运维管理在数据中心建设全寿命周期内是最后一个,也是历时最长的一个阶段,也是最重要的一个阶段。
为确保数据中心安全稳定的运行,数据中心的运维管理主要针对数据中心的合规性、可用性、可靠性、经济性而建立起一套完整科学的管理体系,从而使整个数据中心运维工作具备规范的管理章程,严格的管理制度,高效负责且训练有素的运维团队是数据中心运维成功关键;而从大型数据中心的长期运营角度考虑,持久改进与有效的成本控制是一个现代化数据中心科学管理的必须。
三、能源大数据中心运维体系主要架构
为确保能源大数据中心运维服务水平管理及运维指标体系建设的先进性、开放性和前瞻性,运维体系建设需要参考大量的业界标准和行业实践,主要包括ITIL V2、ITIL V3、ISO 20000、COBIT等。从而能源大数据中心运维服务水平管理及运维指标体系能够尽可能兼容多种标准,并在不同版本的标准下实现平滑的过渡。
能源大数据中心的运维管理可以分为运维人员(People)的管理、数据中心设备及设施的管理(Facility)的管理及运维流程(Process)的管理。
运维人员的管理:包括数据中心内容运维管理人员、技术支持人员、各个系统一线操作服务人员以及第三方支持人员等
数据中心基础设施管理:指保障数据中心的IT设备正常运行所必需的电力系统、空调与制冷系统、消防系统等。
数据中心IT基础架构管理:制数据中心业务承载的具体单元如网络、安全、服务器、数据库、应用平台等
管理工具自身的管理:包括IT基础设施的监控软件、报警系统、工作单系统等
运维流程的管理:包括了服务提供与服务支持,分别对应了几大服务内容。
服务提供:服务水平管理、、容量管理
服务支持:配置管理、事件管理、问题管理、变更管理
另外也包括了数据中心各个系统的管理规章制度。
结合多年来对数据中心运行服务积累的经验,以ITIL和ISO20000标准的服务管理控制体系为指导与依据,总结出一整套完整的适合能源大数据中心运维服务管理体系架构。
IT运维管理规划应充分考虑能源大数据中心现有的管理经验基础(包括组织、人员、流程、工具),结合业界先进的运维管理理念与实践,量身设计能源大数据中心IT运维管理体系架构,形成既标准、专业、高效、统一的运维标准,又充分满足能源大数据中心实际需要的一体化运维管理体系,强调“以业务为中心”的IT运维管理策略,更快得知问题,用自动化运维工具尽快解决,确保业务生产的稳定优质运维。
四、能源大数据中心运维人员组织
能源大数据中心属于国家A级标准的数据中心,要求运维人员需做到全年7X24 小时的值守。UI 在美国的数据统计表明,全天候的值守可以将数据中心故障的发生率降低50%,对于提升整体数据中心的可用性有相当大的影响。下图为数据中心运维人员的岗位设置思路:
数据中心运维人员岗位设置图
运维经理统筹全局,负责数据中心基础设施运营管理,达到要求之服务水平;技术专家负责包括但不限于配电、暖通、弱电、网络、安全、服务器专业的相关技术工作;运维主管则是主要面对数据中心基础设施部分的一線运维事务管理;安全质监员主要负责运维安全管理,防止非安全操作和安全隐患时间的发生;资产管理员负责运维整体资产、备品备件管理;维护维修员负责机房基础设施的日常维护与故障处理,根据各专业规程、指标、操作手册和设备说明书的规定,按照维护周期执行各专业维护工作;巡检值班员负责机房日常巡检与监控值班,执行每日设备巡视巡检,记录设备运行数据,发现报警及隐患问题,立即上报安排跟进维修。 五、能源大数据中心运维工具
数据中心运维工具,是数据中心开展日常运维工作的重要手段之一,通过合理的使用运维工具可以是运维管理人员实时掌控整个数据中心运行状态,并且极大的减少运维人员的工作压力。
数据中心运维工具主要分为:硬件工具和软件工具。其中硬件工具主要是万用表、测线仪、光纤测试仪、控制线缆、KVM等标准化工具,主要面对数据中心基础运维工作,解决显而易见的实际问题。随着数据中心规模的扩大,软件工具已经是数据中心必不可少的重要组成部分,贯穿于数据中心运维工作的各个环节。
能源大数据中心软件运维工具主要由以下三部分组成,具体如下图所示:
1、基础设施管理系统(DCIM)。基础设施管理系统是是将IT(信息技术)和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。通过软件、硬件和传感器等,对数据中心IT设备和基础设施进行实时监控和管理。
2、IT基础架构管理系统(ITIM)。IT基础架构管理系统是基于IT基础架构的一体化运维管理平层次化、模块化的设计理念,以全开放的、组件化的架构原型。通过MDP消息总线进行集成,将资源监控、CMDB、运维流程管理融为一体。此外系统还提供了分布式、分级式的部署模式,二级代理支持横向扩展,为客户提供可靠的、可扩展的、高性能的一体化运维管理平台。整个系统还提供开放的restful web services接口来持续集成。
3、数据中心一体化管理平台。数据中心一体化管理平台是汇集着运维事件、变更、问题、知识管理的核心平台,是数据中运维人员实现数据中心管理的入口,体现了数据中心整个运维工作的效果和成绩。数据中心一体化管理平台需要与IT基础架构管理系统和基础设施管理系统对接,从而实现整体运维数据的联动和拉通。
六、系统验证故障应急预案
为加强对能源大数据中心基础设施设备故障等突发事件的控制,需要根据能源大数据中心具体情况,将应急保障流程充分结合到系统测试验证工作和运维工作中,通过验证测试平台,对运维过程中可能的出现的故障场景进行模拟,检查运维应急流程的合理性和可操作性,发现应急流程中的风险,为提高运维操作的可靠性提供依据,保障数据中心基础设施运维管理的设备故障应急保障方案有效可行。
七、结束语
为确保能源大数据中心安全稳定的运行,在需要具备高效负责且训练有素的运维团队的同时还需要具备科学先进的运维管理体系,二者相辅相成,是能源大数据中心成功运维管理的关键。
参 考 文 献
[1]努尔·白克力.能源发展“十三五”规划[M].中国电力出版社,2017.3.
[2]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].浙江人民出版社,2013.1.
[3]楊正洪.智慧城市:大数据、物联网和云计算之应用[M].清华大学出版社,2018.10.
[4]刘韶林.物联网技术在智能配电网中的应用[M].中国电力出版社,2019.4.