论文部分内容阅读
2008年,北京市卫生局结合实际运维工作情况,自主开发了IT运维支撑系统。该系统主要由ITIL运维管理工具和网络管理辅助系统两部分组成。ITIL运维管理工具主要包括事件管理、问题管理、变更管理、发布管理、统计分析和知识库等模块;而网络管理辅助系统中主要是结合网络部实际工作而开发的文档管理、IP地址管理、服务器管理、合同管理、项目管理和信息安全管理等模块。该系统在近一年的使用中,发挥了很大的作用。
北京市电子政务IT运维服务支撑系统系列规范规定了IT运维服务支撑系统的应用需求,IT运维服务涉及的管理对象和所需的管理支撑能力,以及支撑IT运维服务的系统应该具备的管理功能、系统结构、技术指标和相关接口等技术要求以及IT运维服务支撑系统的测试方法。
2009年1月6日,北京市卫生局通过北京卫生信息网通报,北京确诊一例人感染高致病性禽流感病例。1月11日,北京市卫生局向全市各级卫生机构发出动员令,要求严格做好防控工作,采取有效措施,防止禽流感对人的感染。
控制、通报禽流感等重大疫情,只是北京市卫生局多项职能中的一项。该局同时还要组织本市医疗、社区卫生服务和卫生监督机构防治传染病,发布监测传染病名录,预防和控制疫情的发生、蔓延,建设全市医疗急救体系,负责对医疗机构大型医疗设备的配置、应用质量监管……
就是这样一个关系人民健康的机构的IT运维,却只有4个人在做。
只有4人整天忙着救火
北京市公共卫生信息中心是北京市卫生局的直属事业单位,共有10个部门、45人,承担着北京地区卫生信息化工作。该中心依托北京市网络资源,不断整合北京地区卫生信息资源,逐渐形成了联接各级卫生行政部门、疾病预防控制机构、卫生监督机构、医疗机构和社区卫生服务机构的“纵向到底,横向到边”的信息网络覆盖和完善的公共卫生应用系统。
统计、血液管理、社区卫生服务、监督许可、新农合等近20项涵盖卫生管理重要业务的信息系统相继建成并投入应用。业务工作对信息系统的依赖程度也越来越高,系统出现问题会直接影响到业务的正常开展,有的甚至是对业务产生致命影响。如何提高信息系统的可用性、持续性和安全性是这些系统运行维护管理工作的重要任务。而摆在我们面前的难题也并非就是单纯的技术问题,如何通过规范的管理来实现业务目标,满足业务需求,就成为我们当前的重要课题。
北京市公共卫生信息中心网络管理部的4名工作人员负责所有信息系统的运维工作。工作人员要承担市卫生局、中医药管理局及医学管理协会等十余家单位的网络日常维护工作,涉及计算机400余台,服务器及网络设备165台,可以说是“点多、面广、线长、量大”。以前网络部的运维人员每天如救火队员一样忙碌,根本没有时间考虑各业务系统的完善和持续改进,也就无法更好地满足业务现实需求。针对市卫生局信息化建设中存在的IT服务管理较弱的问题,我们积极引入国际最佳实践ITIL的服务思想并开发相关工具,运维水平显著提高。
从一无所有到ITIL雏形显现
通过对需求的梳理、分析,我们发现在这个阶段,服务对象对运维管理的务实期望就是减少故障,实现对IT技术设施的有效掌控。这就要求我们必须做好三件事:一是建立服务台,二是细化配置项,三是充实知识库。只有这样,才能为将来服务管理级别的提升打好基础。
1.建立服务台。以前,用户网络或PC遇到故障时通常都是直接给维护工程师打电话。工程师即使手头有其他工作安排,但为了保证客户满意度,也得放下手中工作及时前去维修,有时可能因为其他工作安排而影响响应速度。所以网络部的工作人员总是感觉工作杂乱无章,天天就像救火队员,疲于应付。
网络部面对这种局面进行了工作调整,建立服务台,设立热线电话,实现“一口受理,分级转办”。具体方法是聘请外包公司技术人员做服务台一线处理员。服务台一线人员接到申请后,针对用户提出的问题作出反应,先通过电话对故障类型进行了解,并尝试电话指导排除故障。如无法电话解决,或涉及数据、权限等的申请,则提交二线解决。二线管理人员将会派工程师到现场服务并记录。通过严格的流程、权限控制,实现对操作流程的规范,从而达到通过面向用户统一而专职的服务联系点促进组织业务流程与IT运维管理架构的集成,实现逐步把网络管理部运维人员从“救火队员”的状态解放出来的目标。
2.细化配置项。我们清醒地认识到,就日常工作而言,配置管理尤为重要,它不仅仅是将客户端、网络、服务器、操作系统、应用系统等相关软硬件记录在案,而且能够帮助一线及二线人员提高效率,减少差错。我们不仅对所管理的硬件、软件进行详细记录,而且将签订合同、各服务商的联系电话、提供的应急预案和服务响应等级协议等作为配置项的重要关联文档进行记录并存档,为日后变更管理、能力管理以及IT服务财务管理提供支持。
3.充实知识库。运维系统建设的目的不仅是规范、记录、督促、自动化管理工作,而且要帮助各级支持人员提高技能水平,简化IT服务任务,同时也是降低对具体个人依赖的手段。
这些需要通过知识经验的积累和共享来完成。要想实现这样的目的就必须建立知识库。而要让知识库充分发挥作用就必须在细节上下功夫。我们要求服务人员在线完成服务记录的同时,要对出现故障的情况进行详细描述,还要求其对排除故障的步骤、措施以及对问题的分析及建议进行规范描述,使其有更强的操作性和可用性。
例如,信息中心空调故障知识库所涉及的项目包括:时间、气温、风力、服务类型、设备型号、设备位置、故障现象、解决方法、建议内容,以及故障原因等方面的内容,从而为日后查找分析问题原因、变更服务合同直接提供有力支持,同时也为运维人员在日常维护中做到提前预防、快速排障提供智力支持。
从被动响应到主动管理
第一阶段实施后,运维质量有了明显改善,但仍未从根本上杜绝“意外问题”的发生。而要规避风险,技术上的改进必不可少。我们利用网络监控软件对各个系统的服务器CPU、内存、硬盘利用率,各端口流量及通断状况进行监控,发现异常,及时处理,实现了预防关口的迁移,保证了服务器良好运行,网络状态正常。
2008年12月24日,运维工程师通过网络监控软件发现统计平台应用服务器硬盤空间占用率已高达95%。随后我们及时通知了系统承建公司,要求他们关注此问题并对磁盘空间进行清理。2009年1月16日,运维工程师发现该服务器硬盘空间使用率高达99%,随后立即要求系统承建公司马上进行磁盘数据清理。事后系统承建公司主动打电话对我们的提醒表示感谢,因为当时正是统计系统年报数据上报阶段,如果硬盘满了会对整个应用造成影响。通过这件事,我们看到运维工作的规范和加强不仅仅提高了系统运行可靠性,而且对系统承建公司也是一种管理和约束。
强调“技术、人员、流程”三者结合的IT服务管理,成为我们优化组织结构、改进管理流程的方法。
首先,构筑三级服务体系是指服务管理、服务整合和服务实施三级服务组织体系。
其次,我们结合自身实际,根据人员岗位、编制,设立由中心分管领导负总责、网络管理部人员担任二线主管和聘请外部人员担任一线服务台人员的三级流程管理体系,并对岗位职责进行细化,明确规定各岗位所需达到的专业技能水平。而在日常事件管理过程中,我们要求一线人员针对不同问题进行转线。事件主管(二线主管)根据服务级别派遣不同技术人员电话或赴现场解决问题。事件解决后,由二线技术人员填写事件记录。如事件未能解决,事件主管将负责将事件转交三线技术或管理人员解决。三线人员解决问题后,填写事件处理记录。事件处理完毕后,事件主管核实事件处理情况后,关闭事件。同时,事件主管根据事件的解决处理情况进行评估,并根据事件发生率及相关情况决定是否升级到问题或变更。根据事件管理生成的问题,问题主管应分配专业技术或管理人员按问题进行管理。针对不同的问题,制定完成计划,并监督进展情况。一旦涉及的问题得到解决,应及时编写知识库资料并着手进行培训,防止问题的再次发生。正是通过事件管理流程的规范,才逐步使运维管理流程化、制度化,真正把管理落到实处,防治了出现“灯下黑”或出现管理上的死角。同时这种分级转办工作模式,帮助我中心实现了服务管理的SLA,对进一步提高用户满意度,保障重点系统的高可用性和服务的持续性,发挥了重要作用。
北京市卫生局已经逐步由大规模的信息系统建设阶段转到以系统运维为主的维护阶段, 我们发现运维工作的薄弱环节不是在技术方面。网络管理软件、安全设备、系统监控系统等等有助于运维的技术手段日渐丰富,但运维工作不是简单地采购几套系统几台设备,而是要使用科学的管理方法。北京市电子政务IT运维服务支撑系统系列规范就是政府部门做好IT运维工作很好的理论指导。
北京市电子政务IT运维服务支撑系统系列规范规定了IT运维服务支撑系统的应用需求,IT运维服务涉及的管理对象和所需的管理支撑能力,以及支撑IT运维服务的系统应该具备的管理功能、系统结构、技术指标和相关接口等技术要求以及IT运维服务支撑系统的测试方法。
2009年1月6日,北京市卫生局通过北京卫生信息网通报,北京确诊一例人感染高致病性禽流感病例。1月11日,北京市卫生局向全市各级卫生机构发出动员令,要求严格做好防控工作,采取有效措施,防止禽流感对人的感染。
控制、通报禽流感等重大疫情,只是北京市卫生局多项职能中的一项。该局同时还要组织本市医疗、社区卫生服务和卫生监督机构防治传染病,发布监测传染病名录,预防和控制疫情的发生、蔓延,建设全市医疗急救体系,负责对医疗机构大型医疗设备的配置、应用质量监管……
就是这样一个关系人民健康的机构的IT运维,却只有4个人在做。
只有4人整天忙着救火
北京市公共卫生信息中心是北京市卫生局的直属事业单位,共有10个部门、45人,承担着北京地区卫生信息化工作。该中心依托北京市网络资源,不断整合北京地区卫生信息资源,逐渐形成了联接各级卫生行政部门、疾病预防控制机构、卫生监督机构、医疗机构和社区卫生服务机构的“纵向到底,横向到边”的信息网络覆盖和完善的公共卫生应用系统。
统计、血液管理、社区卫生服务、监督许可、新农合等近20项涵盖卫生管理重要业务的信息系统相继建成并投入应用。业务工作对信息系统的依赖程度也越来越高,系统出现问题会直接影响到业务的正常开展,有的甚至是对业务产生致命影响。如何提高信息系统的可用性、持续性和安全性是这些系统运行维护管理工作的重要任务。而摆在我们面前的难题也并非就是单纯的技术问题,如何通过规范的管理来实现业务目标,满足业务需求,就成为我们当前的重要课题。
北京市公共卫生信息中心网络管理部的4名工作人员负责所有信息系统的运维工作。工作人员要承担市卫生局、中医药管理局及医学管理协会等十余家单位的网络日常维护工作,涉及计算机400余台,服务器及网络设备165台,可以说是“点多、面广、线长、量大”。以前网络部的运维人员每天如救火队员一样忙碌,根本没有时间考虑各业务系统的完善和持续改进,也就无法更好地满足业务现实需求。针对市卫生局信息化建设中存在的IT服务管理较弱的问题,我们积极引入国际最佳实践ITIL的服务思想并开发相关工具,运维水平显著提高。
从一无所有到ITIL雏形显现
通过对需求的梳理、分析,我们发现在这个阶段,服务对象对运维管理的务实期望就是减少故障,实现对IT技术设施的有效掌控。这就要求我们必须做好三件事:一是建立服务台,二是细化配置项,三是充实知识库。只有这样,才能为将来服务管理级别的提升打好基础。
1.建立服务台。以前,用户网络或PC遇到故障时通常都是直接给维护工程师打电话。工程师即使手头有其他工作安排,但为了保证客户满意度,也得放下手中工作及时前去维修,有时可能因为其他工作安排而影响响应速度。所以网络部的工作人员总是感觉工作杂乱无章,天天就像救火队员,疲于应付。
网络部面对这种局面进行了工作调整,建立服务台,设立热线电话,实现“一口受理,分级转办”。具体方法是聘请外包公司技术人员做服务台一线处理员。服务台一线人员接到申请后,针对用户提出的问题作出反应,先通过电话对故障类型进行了解,并尝试电话指导排除故障。如无法电话解决,或涉及数据、权限等的申请,则提交二线解决。二线管理人员将会派工程师到现场服务并记录。通过严格的流程、权限控制,实现对操作流程的规范,从而达到通过面向用户统一而专职的服务联系点促进组织业务流程与IT运维管理架构的集成,实现逐步把网络管理部运维人员从“救火队员”的状态解放出来的目标。
2.细化配置项。我们清醒地认识到,就日常工作而言,配置管理尤为重要,它不仅仅是将客户端、网络、服务器、操作系统、应用系统等相关软硬件记录在案,而且能够帮助一线及二线人员提高效率,减少差错。我们不仅对所管理的硬件、软件进行详细记录,而且将签订合同、各服务商的联系电话、提供的应急预案和服务响应等级协议等作为配置项的重要关联文档进行记录并存档,为日后变更管理、能力管理以及IT服务财务管理提供支持。
3.充实知识库。运维系统建设的目的不仅是规范、记录、督促、自动化管理工作,而且要帮助各级支持人员提高技能水平,简化IT服务任务,同时也是降低对具体个人依赖的手段。
这些需要通过知识经验的积累和共享来完成。要想实现这样的目的就必须建立知识库。而要让知识库充分发挥作用就必须在细节上下功夫。我们要求服务人员在线完成服务记录的同时,要对出现故障的情况进行详细描述,还要求其对排除故障的步骤、措施以及对问题的分析及建议进行规范描述,使其有更强的操作性和可用性。
例如,信息中心空调故障知识库所涉及的项目包括:时间、气温、风力、服务类型、设备型号、设备位置、故障现象、解决方法、建议内容,以及故障原因等方面的内容,从而为日后查找分析问题原因、变更服务合同直接提供有力支持,同时也为运维人员在日常维护中做到提前预防、快速排障提供智力支持。
从被动响应到主动管理
第一阶段实施后,运维质量有了明显改善,但仍未从根本上杜绝“意外问题”的发生。而要规避风险,技术上的改进必不可少。我们利用网络监控软件对各个系统的服务器CPU、内存、硬盘利用率,各端口流量及通断状况进行监控,发现异常,及时处理,实现了预防关口的迁移,保证了服务器良好运行,网络状态正常。
2008年12月24日,运维工程师通过网络监控软件发现统计平台应用服务器硬盤空间占用率已高达95%。随后我们及时通知了系统承建公司,要求他们关注此问题并对磁盘空间进行清理。2009年1月16日,运维工程师发现该服务器硬盘空间使用率高达99%,随后立即要求系统承建公司马上进行磁盘数据清理。事后系统承建公司主动打电话对我们的提醒表示感谢,因为当时正是统计系统年报数据上报阶段,如果硬盘满了会对整个应用造成影响。通过这件事,我们看到运维工作的规范和加强不仅仅提高了系统运行可靠性,而且对系统承建公司也是一种管理和约束。
强调“技术、人员、流程”三者结合的IT服务管理,成为我们优化组织结构、改进管理流程的方法。
首先,构筑三级服务体系是指服务管理、服务整合和服务实施三级服务组织体系。
其次,我们结合自身实际,根据人员岗位、编制,设立由中心分管领导负总责、网络管理部人员担任二线主管和聘请外部人员担任一线服务台人员的三级流程管理体系,并对岗位职责进行细化,明确规定各岗位所需达到的专业技能水平。而在日常事件管理过程中,我们要求一线人员针对不同问题进行转线。事件主管(二线主管)根据服务级别派遣不同技术人员电话或赴现场解决问题。事件解决后,由二线技术人员填写事件记录。如事件未能解决,事件主管将负责将事件转交三线技术或管理人员解决。三线人员解决问题后,填写事件处理记录。事件处理完毕后,事件主管核实事件处理情况后,关闭事件。同时,事件主管根据事件的解决处理情况进行评估,并根据事件发生率及相关情况决定是否升级到问题或变更。根据事件管理生成的问题,问题主管应分配专业技术或管理人员按问题进行管理。针对不同的问题,制定完成计划,并监督进展情况。一旦涉及的问题得到解决,应及时编写知识库资料并着手进行培训,防止问题的再次发生。正是通过事件管理流程的规范,才逐步使运维管理流程化、制度化,真正把管理落到实处,防治了出现“灯下黑”或出现管理上的死角。同时这种分级转办工作模式,帮助我中心实现了服务管理的SLA,对进一步提高用户满意度,保障重点系统的高可用性和服务的持续性,发挥了重要作用。
北京市卫生局已经逐步由大规模的信息系统建设阶段转到以系统运维为主的维护阶段, 我们发现运维工作的薄弱环节不是在技术方面。网络管理软件、安全设备、系统监控系统等等有助于运维的技术手段日渐丰富,但运维工作不是简单地采购几套系统几台设备,而是要使用科学的管理方法。北京市电子政务IT运维服务支撑系统系列规范就是政府部门做好IT运维工作很好的理论指导。