论文部分内容阅读
信息系统基础设施是指支撑上层各业务应用系统运行的环境资源。对于采用集中方式部署的信息系统而言,基础设施主要包括机房UPS不间断电源系统、机房制冷系统等场地环境资源,以及关键网络资源和计算机硬件资源。二十世纪九十年代以来,铁道部的信息系统建设取得显著成效,已建成并投产了运输指挥、经营管理、对外服务、信息支撑和运行保障共4大类30个应用系统,部署在铁道部6个机房。铁道部信息系统及基础设施的运行维护工作由专职运行维护队伍分级、分工负责,通过热线电话、ITSM监控系统、在线支持系统等3种运维技术手段接收、处理各类运维事件。信息系统基础设施的安全运维是保障信息系统平稳运行的重要手段。基础设施安全运维的研究具有重大意义。本文首先对近年来铁道部信息系统运维事件的统计资料进行了深入分析,发现因基础设施出现问题而导致的信息系统故障类事件占比较大,且影响范围广,影响程度深。其中,设施变动、机房制冷能力不足、网络资源不足这3种因素是引发信息系统故障的主要原因。然后,本文对上述这3种因素的安全运维进行了研究:在设施变动方面,运用安全工程理论中的故障树分析等方法对UPS电源设备在线更换方案进行了风险评估和比较,确定了优选方案,并根据风险分析结论对优选方案的关键环节进行了细化;在机房制冷方面,通过对铁道部6号机房制冷系统问题进行详细分析,提出了机房冷量测算的数学模型、计算公式和详细计算方法;在网络资源优化方面,重点研究了骨干网可用性的提高和网络流量的可视化管理,实现了广域网通道的流量分担与数据流径路相互保护,实现了互联网出口的流量控制与保障。本文把研究结论与工作实践相结合,将研究成果应用到了运维实际工作中,通过应用效果检验,成效明显,大幅提升了铁道部信息系统基础设施的安全运维质量。