能源大数据中心运维体系研究

来源 :中国新通信 | 被引量 : 0次 | 上传用户:drhxumingzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    整个大数据中心生命周期中,大数据中心运维管理是大数据中心生命周期中历时最长的一个阶段。能源大数据中心的建设建立成熟的运维管理体系是十分必要和重要的,并且需要结合自身的业务特点,引入先进的最佳实践和规范化的管理流程,通过运维服务及时掌握大数据中心资源现状,反映大数据中心资源的可用性情况和健康状况,创建一个可知可控的IT环境,从而保证能源大数据中心内部署的IT各类业务应用系统的可靠、稳定、安全运行。
  【关键词】    数据中心    运维体系    能源互联网    运维工具
  一、运维体系建设的必要性
  随着信息化建设的不断推进,使得作为信息承载的主体-数据中心本身的运营管理变得越来越重要,工作量越来越大,对安全性、可用性和运维管理等要求越来越高,数据中心的运维也就逐渐经历了多次演变优化并将其概括分为四个阶段,包括基本的人工运维,以工具及流程来驱动人工的标准化运维,通过预设逻辑实现的自动化运维,通过辅助分析实现的智能化运维。
  运维的演变实际可以理解为是由运维到运营的一种转化提升的过程。传统人工运维的不可控性和失误通过标准的流程化运维作业这一手段,实现了有效的减少和避免;标准化运维的粗颗粒度和人工操作被自动化运维的预设逻辑和自动控制功能替代,从而达到精细化、自动化的阶段目标。
  目前各大互联网公司已有不少成熟的数据中心基础环境智能化运维案例,例如谷歌公司使用Deepmind开发的人工智能系统,为数据中心提供冷却方案,减少了冷却能耗的40%,就是一个将智能系统应用于数据中心,通过获取学习运维方法,制定出对数据中心基础环境运维有益的运行方案,达到优化数据中心运行的目的。再比如,阿里的智能机器人,在巡检中完成基础环境设施的温度、湿度、空气质量、电气参数、空调参数等监测的工作,同样是代替了人工操作,同时还提高了人员安全系数。
  二、数据中心运维目标
  数据中心运维目标是通过建立规范先进的运维服务体系,充分发挥数据中心的基础服务功能,为在数据中心进行信息系统建设与部署、日常运行、及回收提供全生命周期的资源、通信及安全等服务,实现IT的业务价值,提升数据中心用户的满意度。运维体系要具有前瞻性的风险预测能力、智能动态服务能力、人工智能决策能力。
  运维管理在数据中心建设全寿命周期内是最后一个,也是历时最长的一个阶段,也是最重要的一个阶段。
  为确保数据中心安全稳定的运行,数据中心的运维管理主要针对数据中心的合规性、可用性、可靠性、经济性而建立起一套完整科学的管理体系,从而使整个数据中心运维工作具备规范的管理章程,严格的管理制度,高效负责且训练有素的运维团队是数据中心运维成功关键;而从大型数据中心的长期运营角度考虑,持久改进与有效的成本控制是一个现代化数据中心科学管理的必须。
  三、能源大数据中心运维体系主要架构
  为确保能源大数据中心运维服务水平管理及运维指标体系建设的先进性、开放性和前瞻性,运维体系建设需要参考大量的业界标准和行业实践,主要包括ITIL V2、ITIL V3、ISO 20000、COBIT等。从而能源大数据中心运维服务水平管理及运维指标体系能够尽可能兼容多种标准,并在不同版本的标准下实现平滑的过渡。
  能源大数据中心的运维管理可以分为运维人员(People)的管理、数据中心设备及设施的管理(Facility)的管理及运维流程(Process)的管理。
  运维人员的管理:包括数据中心内容运维管理人员、技术支持人员、各个系统一线操作服务人员以及第三方支持人员等
  数据中心基础设施管理:指保障数据中心的IT设备正常运行所必需的电力系统、空调与制冷系统、消防系统等。
  数据中心IT基础架构管理:制数据中心业务承载的具体单元如网络、安全、服务器、数据库、应用平台等
  管理工具自身的管理:包括IT基础设施的监控软件、报警系统、工作单系统等
  运维流程的管理:包括了服务提供与服务支持,分别对应了几大服务内容。
  服务提供:服务水平管理、、容量管理
  服务支持:配置管理、事件管理、问题管理、变更管理
  另外也包括了数据中心各个系统的管理规章制度。
  结合多年来对数据中心运行服务积累的经验,以ITIL和ISO20000标准的服务管理控制体系为指导与依据,总结出一整套完整的适合能源大数据中心运维服务管理体系架构。
  IT运维管理规划应充分考虑能源大数据中心现有的管理经验基础(包括组织、人员、流程、工具),结合业界先进的运维管理理念与实践,量身设计能源大数据中心IT运维管理体系架构,形成既标准、专业、高效、统一的运维标准,又充分满足能源大数据中心实际需要的一体化运维管理体系,强调“以业务为中心”的IT运维管理策略,更快得知问题,用自动化运维工具尽快解决,确保业务生产的稳定优质运维。
  四、能源大数据中心运维人员组织
  能源大数据中心属于国家A级标准的数据中心,要求运维人员需做到全年7X24 小时的值守。UI 在美国的数据统计表明,全天候的值守可以将数据中心故障的发生率降低50%,对于提升整体数据中心的可用性有相当大的影响。下图为数据中心运维人员的岗位设置思路:
  数据中心运维人员岗位设置图
  运维经理统筹全局,负责数据中心基础设施运营管理,达到要求之服务水平;技术专家负责包括但不限于配电、暖通、弱电、网络、安全、服务器专业的相关技术工作;运维主管则是主要面对数据中心基础设施部分的一線运维事务管理;安全质监员主要负责运维安全管理,防止非安全操作和安全隐患时间的发生;资产管理员负责运维整体资产、备品备件管理;维护维修员负责机房基础设施的日常维护与故障处理,根据各专业规程、指标、操作手册和设备说明书的规定,按照维护周期执行各专业维护工作;巡检值班员负责机房日常巡检与监控值班,执行每日设备巡视巡检,记录设备运行数据,发现报警及隐患问题,立即上报安排跟进维修。   五、能源大数据中心运维工具
  数据中心运维工具,是数据中心开展日常运维工作的重要手段之一,通过合理的使用运维工具可以是运维管理人员实时掌控整个数据中心运行状态,并且极大的减少运维人员的工作压力。
  数据中心运维工具主要分为:硬件工具和软件工具。其中硬件工具主要是万用表、测线仪、光纤测试仪、控制线缆、KVM等标准化工具,主要面对数据中心基础运维工作,解决显而易见的实际问题。随着数据中心规模的扩大,软件工具已经是数据中心必不可少的重要组成部分,贯穿于数据中心运维工作的各个环节。
  能源大数据中心软件运维工具主要由以下三部分组成,具体如下图所示:
  1、基础设施管理系统(DCIM)。基础设施管理系统是是将IT(信息技术)和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。通过软件、硬件和传感器等,对数据中心IT设备和基础设施进行实时监控和管理。
  2、IT基础架构管理系统(ITIM)。IT基础架构管理系统是基于IT基础架构的一体化运维管理平层次化、模块化的设计理念,以全开放的、组件化的架构原型。通过MDP消息总线进行集成,将资源监控、CMDB、运维流程管理融为一体。此外系统还提供了分布式、分级式的部署模式,二级代理支持横向扩展,为客户提供可靠的、可扩展的、高性能的一体化运维管理平台。整个系统还提供开放的restful web services接口来持续集成。
  3、数据中心一体化管理平台。数据中心一体化管理平台是汇集着运维事件、变更、问题、知识管理的核心平台,是数据中运维人员实现数据中心管理的入口,体现了数据中心整个运维工作的效果和成绩。数据中心一体化管理平台需要与IT基础架构管理系统和基础设施管理系统对接,从而实现整体运维数据的联动和拉通。
  六、系统验证故障应急预案
  为加强对能源大数据中心基础设施设备故障等突发事件的控制,需要根据能源大数据中心具体情况,将应急保障流程充分结合到系统测试验证工作和运维工作中,通过验证测试平台,对运维过程中可能的出现的故障场景进行模拟,检查运维应急流程的合理性和可操作性,发现应急流程中的风险,为提高运维操作的可靠性提供依据,保障数据中心基础设施运维管理的设备故障应急保障方案有效可行。
  七、结束语
  为确保能源大数据中心安全稳定的运行,在需要具备高效负责且训练有素的运维团队的同时还需要具备科学先进的运维管理体系,二者相辅相成,是能源大数据中心成功运维管理的关键。
  参  考  文  献
  [1]努尔·白克力.能源发展“十三五”规划[M].中国电力出版社,2017.3.
  [2]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].浙江人民出版社,2013.1.
  [3]楊正洪.智慧城市:大数据、物联网和云计算之应用[M].清华大学出版社,2018.10.
  [4]刘韶林.物联网技术在智能配电网中的应用[M].中国电力出版社,2019.4.
其他文献
信息技术作为高新技术发展的代表,对社会中的各个方面产生着较为深刻的影响,图书馆行业也不例外.图书馆作为社会知识、信息、文化的记忆装置,非常注重科学技术的使用与研究,
本文介绍了基站天线美化外罩的应用场景、产品类别;外罩的材质选取原则及基本机械性能要求;明确指出该类外罩产品的主要技术指标.文章从透波性能、结构性能、射频性能及抗老
本文提出一种基于区域生长的太极拳竞赛场地分割算法。首先,将彩色太极拳竞赛图像转换到YCbCr空间;其次,利用大津法进行阈值分割得到竞赛场地的种子区域;最后,以种子区域作为起始,利用区域生长法分割出太极拳竞赛场地区域。实验结果验证本文算法的有效性。
【摘要】 随着互联网时代的来临,大数据也逐渐被人们所关注,人们通过使用互联网,无论是生活还是学习都变得更加便利,互联网的优势也因此变得更加显著。特别是在学习当中,人们利用互联网开发出了一系列的智能学习系统,学生通过使用智能学习系统,完成学习任务的时候将会更加轻松,也更加高效。不仅如此,智能学习系统也可以根据不同的学习内容,针对学生的兴趣进行推荐,使学生学习起来更加高效,也更加具有积极性。基于此,
中国绘画自古以来一直受到道家哲学思想的影响,其中以真实的情感和绘画创作的关系最为密切。文章以“艺术创作”论为出发点,从绘画艺术的构思、创作过程、两个视角切入,经过深入
“面对每天做不完的业务、学不完的政策和永远有待改进的服务,我一开始不明白这么忙碌究竟为了什么.后来,李科长告诉我,用心用情服务好每一位群众,让每一位群众都能'老有所依
期刊
【摘要】 建造项目现场安全问题极为重要,本文通过对建造领域2大重点场景对5G网络的需求分析,结合5G网络MIMO的特性分析,重点从对超高体塔吊安全管理功能在网络覆盖能力,速率需求满足、站址选择三个方面进行研究,最后,结合智慧建造应用与5G网络部署组网架构进行探讨,最终得出智慧建造领域与5G+组网部署的覆盖方案及策略。  【关键词】 5G 智慧建造 需求分析 覆盖方案  5G Networ
【摘要】 气象自动观测系统(简称AWOS)是用来测量、处理、显示、存储及发布气象数据信息,为飞行、空管、气象预报人员等提供能见度、压力、温度等实时数据,系统正常与否直接影响飞行安全。洛阳北郊机场AWOS系统采用有线通信方式传输数据,本文针对因通讯线路故障导致AWOS系统瘫痪的问题进行研讨,提出传输数据流由无线代替有线传输的改造方案,很好地解决了排除此类故障的方法。  【关键词】 AWOS 故
文章采用文献资料、问卷调查以及数理统计等方法对陕西省普通高校教师的亚健康与运动生活方式状况进行调查与分析,由此得出对两者产生制约的各项因素,以期为建立针对亚健康状
【摘要】 分相是整个行车安全的关键,近年时有停进分相案例,本文从最基本原理,讲解分相要点,难点,分相区应急措施,意在使动车组司机认识到分相重要性,理清处理思路。  【关键词】 接触网分相原理 过分相控制形式 转换跨距锚段分析 分相区取电风险 过分相非正常场景分析  引言  高速铁路接路接触网作为高速铁路重要的重要组成部分,其设计的合理性,可靠性,稳定性,对整个运输制序发挥着至关重要的作