论文部分内容阅读
[摘 要]介绍了数据备份策略与容灾技术,阐述容灾系统的指标以及容灾等级。并通过基于异步复制机制实施了本地信息化系统的远程容灾中心,实现了信息系统的高可用性。测试结果验证该方案具有可靠地的备份性能和数据有效性。
[关键词]备份;异地备份;容灾能力
中图分类号:G307 文献标识码:A 文章编号:1009-914X(2014)36-0014-02
引言
随着运营商企业信息化进程的不断深化,管理信息系统已经成为支撑企业业务运行的重要平台,同时业务的发展也对管理信息系统的业务支撑能力和可靠运行的要求越来越高。陕西移动基础设施的集中建设在实现业务快速响应和控制运营成本的同时,也带来故障点集中的风险问题,如自然灾害、电网停电等不可控风险。因此,适时、合理的规划和开展异地容灾建设,成为确保信息化系统高可用的重要手段。
1.备份及容灾
1.1 备份
常用的备份策略有3种:全量备份、增量备份和差量备份[1]。差分备份在备份的代价和效率对于前两种备份策略进行折衷,在上一次全量备份的基础上,对所指定的数据集在上次全量备份后发生了改变的数据进行备份,备份的数据量通常大于增量备份量,但小于数据总量。
1.2 容灾
容灾主要是指在计算机系统因软件或硬件故障时,仍然能够保证系统工作的能力。容灾涉及到的内容比较广泛,对容灾的分类也可从不同层面上进行。通常情况下,可从容灾抵御灾难的程度和容灾功能的有效范围两个角度对容灾进行分类[2]。容灾系统根据具体的抵御灾难的能力,可分为数据容灾和应用容灾两类。
第一、数据容灾。它主要侧重于对数据的保护,通常需要在异地建立数据系统实现,该系统一般是本地生产系统关键数据的实时复制,即指将本地系统的关键数据进行备份保存,不涉及具体应用业务。
第二、应用服务容灾。它是更高级别的容灾,建立能够完全实现本地应用功能的远程应用系统。灾难发生前,该远程系统与本地进行数据同步,一旦发生灾难,远程系统会接管本地系统业务,继续提供服务,保证业务的连续性。
从本质上来讲,二者是密不可分的。数据容灾是应用容灾的基础,没有数据的一致性,就不可能有应用的连续性。应用容灾又是数据容灾的延伸,不但保证灾难发生时数据不丢失,还保证了业务的连续性。
2.容灾能力指标
2.1 RPO与RTO
容灾系统优劣的判断通常用灾难后的数据丢失量和灾难后系统的恢复时间来衡量。公认的有两个技术指标:RPO和RTO[4]。
RPO是指当灾难发生的时刻到本地业务系统与容灾备份中心最近一次同步数据时刻的时间间隔,是以时间为单位以数据为出发点,说明了容灾系统所能容忍的数据丢失量。RTO是指灾难发生时刻与业务或容灾系统彻底恢复业务正常运行的时刻之间的时间间隔,用来衡量業务服务的影响程度。
RPO针对的是数据丢失,RTO针对的是服务丢失,RPO与RTO越小,系统的可用性就越高, 但二者没有必然的关联。RPO和RTO的合理制定,需要以风险分析和业务影响分析为前提,同时结合实际业务需求来完成。
2.2 容灾能力级别
根据数据中心对灾难恢复RPO与RTO要求的不同,按照国际标准, 数据中心的灾难恢复水平可以划分为如下所示的七个等级[5](表1)。
显然, 各等级标准在技术方案、灾备响应时间、投资管理的复杂性等方面有较大差别。在实际工程中需要根据备份恢复数据量、生产和灾备中心的距离、灾难时的恢复时效等进行方案规划。
3.同城与异地灾备
3.1 同城与异地灾备方式
从容灾功能的有效范围来分可以分为同城灾备和异地灾备。同城灾备方案是在同城或相近区域内建立两个数据中心,一个为生产中心,负责日常生产运行; 另一个为灾难备份中心,负责在灾难发生后的计算机系统运行。该方案生产与灾备中心的距离较近,容易实现数据的同步镜像,保证高效的数据完整性。同城灾难备份方案一般用于供电故障、计算机系统以及人为操作等引起的灾难。
异地灾备一般是在两个较远的(100公里以上)的城市分别建立生产中心和灾备中心,实现远距离的灾难备份。异地灾备能够防范地震、水灾等不可抗风险。
同城灾备和异地灾备各有所长。为达到最理想的防灾效果,在保证计算机系统性能的前提下,可考虑采用同城和异地各建立一个灾备中心的解决方案。
3.2 数据复制技术
在灾难备份系统的建立中,数据复制是其技术的核心。数据复制技术主要是将生产中心的生产数据复制成灾难备份数据,灾难备份数据与生产数据应保持一致。目前,数据复制的主要方式有同步数据复制和异步数据复制两种[3][6]:
3.2.1 同步数据复制
同步数据复制方式是在主机向本地磁盘写数据的同时,将数据传到备份中心的磁盘,在确认远程备份系统的数据同步更新后,完成写数据的操作。同步数据方式的数据实时性强,灾难发生时备份数据能够与生产数据保持一致,几乎没有数据丢失。其缺点是由于数据更新操作时间长,影响应用的性能[7]。同时,由于数据在两个站点之间传输,使得I/O时间受到两个站点之间距离的影响,距离很难突破60公里。由于传输技术的限制,该方式对生产中心和备份中心之间的距离和通信质量有严格要求,一般适用于近距离的同城备份。
3.2.2 异步数据复制
异步数据复制方式的主要原理是在主机系统向本地写磁盘数据后,将本地生产数据以后台的方式复制到异地。异步数据方式对数据的更新操作不必等本地卷和备份卷的数据都更新完毕后才算是更新完成,因此减少了更新操作的时间,同时对主机性能的影响较小。但是,由于不同步,会出现数据的丢失。企业选择复制模式应该结合自身的容灾目标和实际情况来考虑。 4.异地容灾系统方案实现
4.1 方案概述
为了保证数据复制架构的通用性和标准化,在综合兼顾成本和效率的基础上,陕西移动管理信息系统实施建立了异地灾备中心,规划并建成了陕西公司与集团公司统一的数据复制平台,同时进行了灾备系统卷管理的标准化工作。
4.2 逻辑卷改造
灾备中心项目的建设采用了基于主机卷复制的解决方案。VxVM首先对AIX操作系统进行改造,在物理磁盘的基础上产生一个由可变块大小组成的条带化的抽象层VM,把多个物理磁盘组成一个卷组(DG),再从DG中划分逻辑卷。逻辑卷提供与传统物理磁盘提供的类似功能,在卷之上创建文件系统,改造后的结构图如图1所示。由于VxVM是通过底层卷组操作,具有比操作系统以及文件系统层面更高的读写性能,同时由于逻辑卷可以在不停机的情况下进行动态调整,提高系统的可用性。
4.3 基于异步复制的容灾实现
容災备份的机制是同时打开省公司的生产卷和灾备中心对应的备份卷,当陕西本地应用系统有I/O操作或是数据块变化时,将此I/O或数据块的变化以实时异步的方式在灾备中心对应的备份卷上发起请求,从而实现在不影响本地系统性能的基础上两边数据的异步复制。
在灾难恢复方面,接管平台实现广域网的集群管理,实现控制台管理集群系统,并实时监测每个网元的运行状况。当本地发生无法恢复的严重故障或灾难而导致的业务中断,接管平台监测到本地应用退服,可根据策略自动或手工快速地从远端接管平台进行业务的接管,恢复正常应用。异地容灾结构图如图2所示。
4.2 应用效果
根据管理信息系统核心应用OA以及ERP的数据级容灾备份以及应用系统接管的要求,对高可用性指标进行持续的监控与运维,改进包括规划执行等环节的管理体系。从建成后的应用验证结果,灾备系统实现了管理信息系统四到五级的系统容灾能力,提高管理信息系统整体安全性,满足内控和外部监管的需要,保证业务的连续运行能力。
5.结束语
随着业务的发展和技术的变革,信息系统的逻辑架构和功能、数据和配置信息处于不断地变化中,必须建立持续的监控、改进流程和规范的管理方法,才能保持并持续改进系统的高可用水平。
信息系统的容灾系统建设是一个长期、全面、持续完善的工作,企业应结合组织的整体规划目标,依靠可靠的技术手段和完善的管理体系。通过制定、实施和不断改进信息系统高可用性建设计划,提升信息系统服务质量,确保业务的持续运行。
[关键词]备份;异地备份;容灾能力
中图分类号:G307 文献标识码:A 文章编号:1009-914X(2014)36-0014-02
引言
随着运营商企业信息化进程的不断深化,管理信息系统已经成为支撑企业业务运行的重要平台,同时业务的发展也对管理信息系统的业务支撑能力和可靠运行的要求越来越高。陕西移动基础设施的集中建设在实现业务快速响应和控制运营成本的同时,也带来故障点集中的风险问题,如自然灾害、电网停电等不可控风险。因此,适时、合理的规划和开展异地容灾建设,成为确保信息化系统高可用的重要手段。
1.备份及容灾
1.1 备份
常用的备份策略有3种:全量备份、增量备份和差量备份[1]。差分备份在备份的代价和效率对于前两种备份策略进行折衷,在上一次全量备份的基础上,对所指定的数据集在上次全量备份后发生了改变的数据进行备份,备份的数据量通常大于增量备份量,但小于数据总量。
1.2 容灾
容灾主要是指在计算机系统因软件或硬件故障时,仍然能够保证系统工作的能力。容灾涉及到的内容比较广泛,对容灾的分类也可从不同层面上进行。通常情况下,可从容灾抵御灾难的程度和容灾功能的有效范围两个角度对容灾进行分类[2]。容灾系统根据具体的抵御灾难的能力,可分为数据容灾和应用容灾两类。
第一、数据容灾。它主要侧重于对数据的保护,通常需要在异地建立数据系统实现,该系统一般是本地生产系统关键数据的实时复制,即指将本地系统的关键数据进行备份保存,不涉及具体应用业务。
第二、应用服务容灾。它是更高级别的容灾,建立能够完全实现本地应用功能的远程应用系统。灾难发生前,该远程系统与本地进行数据同步,一旦发生灾难,远程系统会接管本地系统业务,继续提供服务,保证业务的连续性。
从本质上来讲,二者是密不可分的。数据容灾是应用容灾的基础,没有数据的一致性,就不可能有应用的连续性。应用容灾又是数据容灾的延伸,不但保证灾难发生时数据不丢失,还保证了业务的连续性。
2.容灾能力指标
2.1 RPO与RTO
容灾系统优劣的判断通常用灾难后的数据丢失量和灾难后系统的恢复时间来衡量。公认的有两个技术指标:RPO和RTO[4]。
RPO是指当灾难发生的时刻到本地业务系统与容灾备份中心最近一次同步数据时刻的时间间隔,是以时间为单位以数据为出发点,说明了容灾系统所能容忍的数据丢失量。RTO是指灾难发生时刻与业务或容灾系统彻底恢复业务正常运行的时刻之间的时间间隔,用来衡量業务服务的影响程度。
RPO针对的是数据丢失,RTO针对的是服务丢失,RPO与RTO越小,系统的可用性就越高, 但二者没有必然的关联。RPO和RTO的合理制定,需要以风险分析和业务影响分析为前提,同时结合实际业务需求来完成。
2.2 容灾能力级别
根据数据中心对灾难恢复RPO与RTO要求的不同,按照国际标准, 数据中心的灾难恢复水平可以划分为如下所示的七个等级[5](表1)。
显然, 各等级标准在技术方案、灾备响应时间、投资管理的复杂性等方面有较大差别。在实际工程中需要根据备份恢复数据量、生产和灾备中心的距离、灾难时的恢复时效等进行方案规划。
3.同城与异地灾备
3.1 同城与异地灾备方式
从容灾功能的有效范围来分可以分为同城灾备和异地灾备。同城灾备方案是在同城或相近区域内建立两个数据中心,一个为生产中心,负责日常生产运行; 另一个为灾难备份中心,负责在灾难发生后的计算机系统运行。该方案生产与灾备中心的距离较近,容易实现数据的同步镜像,保证高效的数据完整性。同城灾难备份方案一般用于供电故障、计算机系统以及人为操作等引起的灾难。
异地灾备一般是在两个较远的(100公里以上)的城市分别建立生产中心和灾备中心,实现远距离的灾难备份。异地灾备能够防范地震、水灾等不可抗风险。
同城灾备和异地灾备各有所长。为达到最理想的防灾效果,在保证计算机系统性能的前提下,可考虑采用同城和异地各建立一个灾备中心的解决方案。
3.2 数据复制技术
在灾难备份系统的建立中,数据复制是其技术的核心。数据复制技术主要是将生产中心的生产数据复制成灾难备份数据,灾难备份数据与生产数据应保持一致。目前,数据复制的主要方式有同步数据复制和异步数据复制两种[3][6]:
3.2.1 同步数据复制
同步数据复制方式是在主机向本地磁盘写数据的同时,将数据传到备份中心的磁盘,在确认远程备份系统的数据同步更新后,完成写数据的操作。同步数据方式的数据实时性强,灾难发生时备份数据能够与生产数据保持一致,几乎没有数据丢失。其缺点是由于数据更新操作时间长,影响应用的性能[7]。同时,由于数据在两个站点之间传输,使得I/O时间受到两个站点之间距离的影响,距离很难突破60公里。由于传输技术的限制,该方式对生产中心和备份中心之间的距离和通信质量有严格要求,一般适用于近距离的同城备份。
3.2.2 异步数据复制
异步数据复制方式的主要原理是在主机系统向本地写磁盘数据后,将本地生产数据以后台的方式复制到异地。异步数据方式对数据的更新操作不必等本地卷和备份卷的数据都更新完毕后才算是更新完成,因此减少了更新操作的时间,同时对主机性能的影响较小。但是,由于不同步,会出现数据的丢失。企业选择复制模式应该结合自身的容灾目标和实际情况来考虑。 4.异地容灾系统方案实现
4.1 方案概述
为了保证数据复制架构的通用性和标准化,在综合兼顾成本和效率的基础上,陕西移动管理信息系统实施建立了异地灾备中心,规划并建成了陕西公司与集团公司统一的数据复制平台,同时进行了灾备系统卷管理的标准化工作。
4.2 逻辑卷改造
灾备中心项目的建设采用了基于主机卷复制的解决方案。VxVM首先对AIX操作系统进行改造,在物理磁盘的基础上产生一个由可变块大小组成的条带化的抽象层VM,把多个物理磁盘组成一个卷组(DG),再从DG中划分逻辑卷。逻辑卷提供与传统物理磁盘提供的类似功能,在卷之上创建文件系统,改造后的结构图如图1所示。由于VxVM是通过底层卷组操作,具有比操作系统以及文件系统层面更高的读写性能,同时由于逻辑卷可以在不停机的情况下进行动态调整,提高系统的可用性。
4.3 基于异步复制的容灾实现
容災备份的机制是同时打开省公司的生产卷和灾备中心对应的备份卷,当陕西本地应用系统有I/O操作或是数据块变化时,将此I/O或数据块的变化以实时异步的方式在灾备中心对应的备份卷上发起请求,从而实现在不影响本地系统性能的基础上两边数据的异步复制。
在灾难恢复方面,接管平台实现广域网的集群管理,实现控制台管理集群系统,并实时监测每个网元的运行状况。当本地发生无法恢复的严重故障或灾难而导致的业务中断,接管平台监测到本地应用退服,可根据策略自动或手工快速地从远端接管平台进行业务的接管,恢复正常应用。异地容灾结构图如图2所示。
4.2 应用效果
根据管理信息系统核心应用OA以及ERP的数据级容灾备份以及应用系统接管的要求,对高可用性指标进行持续的监控与运维,改进包括规划执行等环节的管理体系。从建成后的应用验证结果,灾备系统实现了管理信息系统四到五级的系统容灾能力,提高管理信息系统整体安全性,满足内控和外部监管的需要,保证业务的连续运行能力。
5.结束语
随着业务的发展和技术的变革,信息系统的逻辑架构和功能、数据和配置信息处于不断地变化中,必须建立持续的监控、改进流程和规范的管理方法,才能保持并持续改进系统的高可用水平。
信息系统的容灾系统建设是一个长期、全面、持续完善的工作,企业应结合组织的整体规划目标,依靠可靠的技术手段和完善的管理体系。通过制定、实施和不断改进信息系统高可用性建设计划,提升信息系统服务质量,确保业务的持续运行。