从四人救火到ITIL规范

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:sycamorelee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2008年,北京市卫生局结合实际运维工作情况,自主开发了IT运维支撑系统。该系统主要由ITIL运维管理工具和网络管理辅助系统两部分组成。ITIL运维管理工具主要包括事件管理、问题管理、变更管理、发布管理、统计分析和知识库等模块;而网络管理辅助系统中主要是结合网络部实际工作而开发的文档管理、IP地址管理、服务器管理、合同管理、项目管理和信息安全管理等模块。该系统在近一年的使用中,发挥了很大的作用。
  北京市电子政务IT运维服务支撑系统系列规范规定了IT运维服务支撑系统的应用需求,IT运维服务涉及的管理对象和所需的管理支撑能力,以及支撑IT运维服务的系统应该具备的管理功能、系统结构、技术指标和相关接口等技术要求以及IT运维服务支撑系统的测试方法。
  
  2009年1月6日,北京市卫生局通过北京卫生信息网通报,北京确诊一例人感染高致病性禽流感病例。1月11日,北京市卫生局向全市各级卫生机构发出动员令,要求严格做好防控工作,采取有效措施,防止禽流感对人的感染。
  控制、通报禽流感等重大疫情,只是北京市卫生局多项职能中的一项。该局同时还要组织本市医疗、社区卫生服务和卫生监督机构防治传染病,发布监测传染病名录,预防和控制疫情的发生、蔓延,建设全市医疗急救体系,负责对医疗机构大型医疗设备的配置、应用质量监管……
  就是这样一个关系人民健康的机构的IT运维,却只有4个人在做。
  
  只有4人整天忙着救火
  
  北京市公共卫生信息中心是北京市卫生局的直属事业单位,共有10个部门、45人,承担着北京地区卫生信息化工作。该中心依托北京市网络资源,不断整合北京地区卫生信息资源,逐渐形成了联接各级卫生行政部门、疾病预防控制机构、卫生监督机构、医疗机构和社区卫生服务机构的“纵向到底,横向到边”的信息网络覆盖和完善的公共卫生应用系统。
  统计、血液管理、社区卫生服务、监督许可、新农合等近20项涵盖卫生管理重要业务的信息系统相继建成并投入应用。业务工作对信息系统的依赖程度也越来越高,系统出现问题会直接影响到业务的正常开展,有的甚至是对业务产生致命影响。如何提高信息系统的可用性、持续性和安全性是这些系统运行维护管理工作的重要任务。而摆在我们面前的难题也并非就是单纯的技术问题,如何通过规范的管理来实现业务目标,满足业务需求,就成为我们当前的重要课题。
  北京市公共卫生信息中心网络管理部的4名工作人员负责所有信息系统的运维工作。工作人员要承担市卫生局、中医药管理局及医学管理协会等十余家单位的网络日常维护工作,涉及计算机400余台,服务器及网络设备165台,可以说是“点多、面广、线长、量大”。以前网络部的运维人员每天如救火队员一样忙碌,根本没有时间考虑各业务系统的完善和持续改进,也就无法更好地满足业务现实需求。针对市卫生局信息化建设中存在的IT服务管理较弱的问题,我们积极引入国际最佳实践ITIL的服务思想并开发相关工具,运维水平显著提高。
  
  从一无所有到ITIL雏形显现
  
  通过对需求的梳理、分析,我们发现在这个阶段,服务对象对运维管理的务实期望就是减少故障,实现对IT技术设施的有效掌控。这就要求我们必须做好三件事:一是建立服务台,二是细化配置项,三是充实知识库。只有这样,才能为将来服务管理级别的提升打好基础。
  1.建立服务台。以前,用户网络或PC遇到故障时通常都是直接给维护工程师打电话。工程师即使手头有其他工作安排,但为了保证客户满意度,也得放下手中工作及时前去维修,有时可能因为其他工作安排而影响响应速度。所以网络部的工作人员总是感觉工作杂乱无章,天天就像救火队员,疲于应付。
  网络部面对这种局面进行了工作调整,建立服务台,设立热线电话,实现“一口受理,分级转办”。具体方法是聘请外包公司技术人员做服务台一线处理员。服务台一线人员接到申请后,针对用户提出的问题作出反应,先通过电话对故障类型进行了解,并尝试电话指导排除故障。如无法电话解决,或涉及数据、权限等的申请,则提交二线解决。二线管理人员将会派工程师到现场服务并记录。通过严格的流程、权限控制,实现对操作流程的规范,从而达到通过面向用户统一而专职的服务联系点促进组织业务流程与IT运维管理架构的集成,实现逐步把网络管理部运维人员从“救火队员”的状态解放出来的目标。
  2.细化配置项。我们清醒地认识到,就日常工作而言,配置管理尤为重要,它不仅仅是将客户端、网络、服务器、操作系统、应用系统等相关软硬件记录在案,而且能够帮助一线及二线人员提高效率,减少差错。我们不仅对所管理的硬件、软件进行详细记录,而且将签订合同、各服务商的联系电话、提供的应急预案和服务响应等级协议等作为配置项的重要关联文档进行记录并存档,为日后变更管理、能力管理以及IT服务财务管理提供支持。
  3.充实知识库。运维系统建设的目的不仅是规范、记录、督促、自动化管理工作,而且要帮助各级支持人员提高技能水平,简化IT服务任务,同时也是降低对具体个人依赖的手段。
   这些需要通过知识经验的积累和共享来完成。要想实现这样的目的就必须建立知识库。而要让知识库充分发挥作用就必须在细节上下功夫。我们要求服务人员在线完成服务记录的同时,要对出现故障的情况进行详细描述,还要求其对排除故障的步骤、措施以及对问题的分析及建议进行规范描述,使其有更强的操作性和可用性。
   例如,信息中心空调故障知识库所涉及的项目包括:时间、气温、风力、服务类型、设备型号、设备位置、故障现象、解决方法、建议内容,以及故障原因等方面的内容,从而为日后查找分析问题原因、变更服务合同直接提供有力支持,同时也为运维人员在日常维护中做到提前预防、快速排障提供智力支持。
  
  从被动响应到主动管理
  
  第一阶段实施后,运维质量有了明显改善,但仍未从根本上杜绝“意外问题”的发生。而要规避风险,技术上的改进必不可少。我们利用网络监控软件对各个系统的服务器CPU、内存、硬盘利用率,各端口流量及通断状况进行监控,发现异常,及时处理,实现了预防关口的迁移,保证了服务器良好运行,网络状态正常。
  2008年12月24日,运维工程师通过网络监控软件发现统计平台应用服务器硬盤空间占用率已高达95%。随后我们及时通知了系统承建公司,要求他们关注此问题并对磁盘空间进行清理。2009年1月16日,运维工程师发现该服务器硬盘空间使用率高达99%,随后立即要求系统承建公司马上进行磁盘数据清理。事后系统承建公司主动打电话对我们的提醒表示感谢,因为当时正是统计系统年报数据上报阶段,如果硬盘满了会对整个应用造成影响。通过这件事,我们看到运维工作的规范和加强不仅仅提高了系统运行可靠性,而且对系统承建公司也是一种管理和约束。
  强调“技术、人员、流程”三者结合的IT服务管理,成为我们优化组织结构、改进管理流程的方法。
   首先,构筑三级服务体系是指服务管理、服务整合和服务实施三级服务组织体系。
   其次,我们结合自身实际,根据人员岗位、编制,设立由中心分管领导负总责、网络管理部人员担任二线主管和聘请外部人员担任一线服务台人员的三级流程管理体系,并对岗位职责进行细化,明确规定各岗位所需达到的专业技能水平。而在日常事件管理过程中,我们要求一线人员针对不同问题进行转线。事件主管(二线主管)根据服务级别派遣不同技术人员电话或赴现场解决问题。事件解决后,由二线技术人员填写事件记录。如事件未能解决,事件主管将负责将事件转交三线技术或管理人员解决。三线人员解决问题后,填写事件处理记录。事件处理完毕后,事件主管核实事件处理情况后,关闭事件。同时,事件主管根据事件的解决处理情况进行评估,并根据事件发生率及相关情况决定是否升级到问题或变更。根据事件管理生成的问题,问题主管应分配专业技术或管理人员按问题进行管理。针对不同的问题,制定完成计划,并监督进展情况。一旦涉及的问题得到解决,应及时编写知识库资料并着手进行培训,防止问题的再次发生。正是通过事件管理流程的规范,才逐步使运维管理流程化、制度化,真正把管理落到实处,防治了出现“灯下黑”或出现管理上的死角。同时这种分级转办工作模式,帮助我中心实现了服务管理的SLA,对进一步提高用户满意度,保障重点系统的高可用性和服务的持续性,发挥了重要作用。
  北京市卫生局已经逐步由大规模的信息系统建设阶段转到以系统运维为主的维护阶段, 我们发现运维工作的薄弱环节不是在技术方面。网络管理软件、安全设备、系统监控系统等等有助于运维的技术手段日渐丰富,但运维工作不是简单地采购几套系统几台设备,而是要使用科学的管理方法。北京市电子政务IT运维服务支撑系统系列规范就是政府部门做好IT运维工作很好的理论指导。
  
其他文献
在国内金融机构所要面临的众多风险管理任务中,开发内部程序和系统以确保自身长期拥有足够的资本资源已经成为最重要的一项,尤其是对银行而言。无论是金融危机引发的银行系统的信用和资本危机,还是巴塞尔协议的存在,都使得银行高层管理人员对于资本金风险管理的需求日益旺盛。    在国际金融危机席卷全球的同时,中国银行业却是一块难得的绿洲。“在2004年~2010年之间,中国银行业营收将达到1300亿~1800亿
AOC 2430V属于AOC的V系列产品,是AOC的中高端系列产品中面向商用用户的较经济产品。虽然属于商用产品,但2430V并未满足于简单的外观设计,AOC标志性的“魔戒”调节按钮和黑色钢琴漆的使用、后壳的钻石型花纹设计都显露出了AOC向高端市场冲击的决心,也使得个人用户同样可以选择这款外观出众的产品。  2430V是一款16∶9的24英寸产品,可视尺寸为609.7mm。AOC同样推出了23英寸的
联想与Acer在手机战略上的一进一退、惠普的“移动生态圈”和多数国内厂商的“苹果路线”……PC厂商在手机业务上的布局,是否仅仅是他们的空中楼阁?  PC到手机之间还有多远?PDA和易PC能填充多少空白?Acer与联想、惠普与戴尔在手机战略方面的布局是否真的耐人寻味?作为明显的移动终端的替代品,手机在中国市场的产品定位存在重大分歧。PC厂商的手机布局,或许只是PC厂商充满臆想的乌托邦?  4月3日,
本报讯 美国时间1月16日,Sun宣布已与MySQL公司签署收购协议,收购金额约为10亿美元。这也是Sun继近段时间一系列对开源厂商收购之后的新举动。  Sun兼总裁乔纳森·施瓦茨(Jonathan Schwartz)表示,MySQL的开源数据庫广泛部署于所有主要的操作系统,与Sun的产品线具有很好的互补性,此次收购是Sun有史以来最重要的一次收购行动。  到目前为止,MySQL的开源数据库的下载
01    实施DMAIC模型的7个步骤  “你说什么?网络平均响应时间已经达到了服务水平?!可我在系统里查订单怎么越来越慢!”  “你提交的报告确实显示你们缩短了故障响应时间,可我的问题解决了没有?你们实施ITIL也一年了吧?我承认IT部门的态度是好了不少,可问题解决不了,各业务部门的意见还是很大……”  这种责备是IT部门最常见不过的了。IT系统速度越来越慢,不可预期的宕机,对纵向业务的服务可
责编:霍娜E-mail:ciw_huona@ccidmedia.com    IT系统整合向来是企业合并后整合工作的重中之重,对上海贝尔阿尔卡特股份有限公司(简称ASB)与朗讯科技(中国)有限公司(简称朗讯中国)合并而成的阿尔卡特朗讯公司(简称阿朗)来说也不例外。    此次IT整合,地域跨度之大、预算和人员投入之多、影响之广、起点之高、时间之紧迫、运作之复杂都超乎寻常。那么,阿朗中国是如何成为阿
丘博保险集团利用各种IT手段,实现了快速而精准的理赔处理。同样,CUNA保险集团投资建立的理赔快递(Claims Express)系统,也颇有借鉴意义。    CUNA保险集团负责客户运营的副总裁Kevin Miller介绍说:“我们在Claims Express中整合了所有的人生和伤残理赔相关的系统,为公司节约了数亿美元的成本。”    自动代替手工 Miller说,Claims Express
王钧希望联想的渠道商都能成为各个区域市场的前五名      2006财年12200台,2007财年32400台,还没有结束的2008财年已经销售49100台。在市场低迷的大背景下,联想投影机业务却连年高速增长,成为联想所有业务中成长最快的,而且是联想在2008财年唯一没有下调销售指标的业务。    联想集团亚太及俄罗斯区投影机业务总监王钧表示,联想投影机业务在国内DLP市场已经上升到第三位,200
6月25日,领先的第三方支付企业快钱CEO关国光参加了由赛迪顾问举办的“中国保险行业电子商务高峰论坛”,这是在短短一个月时间里,关国光第二次跟保险行业结缘——5月26日,快钱与9家保险公司达成战略合作伙伴关系。  关国光告诉记者,传统行业还是未来快钱重点拓展的领域,包括水电费、银行、保险等,道理很简单,因为这些行业规模大,对于每笔交易只提取很少费用作为收入的快钱来说,只有上规模才能有良好的营收和利
尽管一直保持低调,但是长春吉大正元信息技术股份有限公司(以下简称吉大正元)在我国以密码算法为支撑的安全领域的地位却不容忽视。在4月21日举办的第十届信息安全大会上,吉大正元荣获“影响十年·中国信息安全发展突出贡献企业奖”,这是对吉大正元10年来一直专注于以密码算法为支撑的安全领域的一个恰如其分的评价。    首次亮剑:    引进先进的PKI技术    吉大正元主要从事信息安全产品的研发、生产、销