对网上支付平台应急响应及恢复预案的研究

来源 :中国新通信 | 被引量 : 0次 | 上传用户:libq19811022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 从技术支撑和精细化管理两个方面,对网上支付系统的应急响应及恢复预案进行分析研究,建立应急保障和恢复工作机制,保证应急工作迅速、高效、有序地进行,满足突发事件下在线支付系统及其承载的数据业务保障和恢复工作的需要,提高对紧急事件快速反应和抗风险的综合能力。
  【关键词】 在线支付系统 应急响应 灾难恢复 应急预案
  网上支付是通过第三方提供的与银行之间的支付接口进行的即时支付方式。网上支付方式方便快捷,极大的节省了交易的开销,因此越来越成为电子商务中不可或缺的重要环节。近年来随着电子商务的蓬勃发展,网上支付系统的稳定和安全成了首要问题。如果出现了故障,势必引起网上交易业务中断、信息阻隔,可能导致交易的局部甚至整体瘫痪。因此,有必须研究并编制重大故障应急响应及恢复预案,建立应急响应和恢复机制。这是平台运行维护和运营支撑工作的重要内容,其价值在故障发生之后的恢复工作中体现出来。
  一、应急预案编制
  1.1制定应急响应方针
  故障发生时,以恢复业务为第一要务原则。应采取各种措施尽可能先快速恢复业务,后再进一步追溯原因,解决具体故障。根据业务的重要性、紧急程度和故障时长,升级事故,逐层上报。
  1.2建立应急响应组织
  应急响应组织的人员主要由公司内部运维人员组成,也包括供应商、代维商人员等外部支撑人员。应规定应急组织中所有相关人员的角色和职责,并指定第一责任人和备份人选。对应急组织架构中的人员建立响应方法和考核机制,明确考核指标。
  1)应急领导小组。职责:负责应急预案执行的总体指挥和协调,对重大应急措施进行决策,组织重大事件的应急处置和上报。输出物或指标:决策、上报。指标值:不定时。
  2)应急业务小组。职责:包括市场、客服、运营、产品部门的人员。负责业务验证、应急业务处理;产品公告和合作伙伴告知;根据内部通报内容,对外择词公告。输出物或指标:渠道挂公告、客服应急、服务群的通知。指标值:每1小时。
  3)技术统筹人员。职责:负责把技术部内部信息向公司管理层/部门领导发布;负责传导领导层面指示信息;负责协调各种资源;负责把技术部内部信息及处理情况向外发布。输出物或指标:信息公布时间间隔;公布阶段性产出物。指标值:每30分钟信息通告,每阶段情况汇报。
  4)故障分析岗。职责:现场运维专家或支撑专家,负责现场操作指挥,向信息公布组反馈进度,技术方案制订。输出物或指标:阶段性产出物。指标值:每阶段情况汇报。
  5)技术执行人员。职责:包括技术部应用组、网络组、主机组、数据库组的技术人员。负责故障实际操作,方案编写。输出物或指标:严格按方案既定指令及时间操作;异常情况及时上报。指标值:输出操作结果;操作实施后过程记录。
  1.3明确应急处置流程
  应急处置流程包括以下三个阶段:故障报告阶段、故障处理阶段、故障恢复后阶段。1)事件报告。相关技术人员主动通过监控告警、巡检等手段发现或接到客户/商户反馈不能正常使用平台等故障事件,及时进行故障定位和排除,如果未能及时解决,达到预案所定义的重大故障事件后,立即向故障分析岗报告。2)影响评估和现场响应。接到事件报告时,故障分析岗询问了解并详细记录故障最开始时间、故障影响范围和影响范围扩散情况,并立即协调组织各专业组技术人员初步核实平台故障原因、业务受影响状况、紧急程度等情况。3)停止交易。在全部业务受影响的情况下,启动停止交易流程。4)故障原因分析定位。各技术专业组查看平台相关的基础设施和应用的运行状态;根据故障现象、状态,故障分析岗召集各专业组在1小时内分析定位出故障原因,并制订恢复方案,报应急技术指挥小组审批。对于事件原因和影响清晰、处置措施明确的事件(如供电系统故障,外系统不可用等),由应急技术指挥小组授权应急执行人员按照预定技术恢复预案进行处置。5)技术恢复。如可以实施问题隔离,则隔离问题,首先恢复系统运行;根据影响评估情况,借助厂商支持,按照预先制定的技术恢复预案,或者紧急制定问题解决具体技术方案,解决问题,彻底恢复系统。6)情况上报和信息通报。根据业务受影响情况和处理进展,开展情况上报、信息通报和发布工作。7)恢复后工作。平台彻底恢复运行后,需要开展通告、上报、总结等后续工作。8)事后清算。平台彻底恢复运行后,开展事后清算工作。
  1.4制定应急场景操作规程
  对各类故障进行分类和分析,制定各种应急场景下的排障步骤和具体恢复方法。
  二、应急预案培训和演练
  对相关人员进行应急预案内容的培训,并通过现场推演的方式,论证应急响应及恢复预案的可行性,优化完善在线支付平台的重大故障处理流程,使相关人员掌握平台的应急处理流程,检验在重大故障突发时反应是否快速,应急措施是否合理,工作是否到位。
  三、总结
  应急预案不是一成不变的,而是不断完善的过程,要根据业务变化持续更新,保持与生产环境一致性;要根据运维经验不断优化和完善,增强针对性和可行性;要定期组织演练提高应急处置能力。
其他文献
1 TPS系统结构与配置1.1 TPS系统结构我公司的TPS系统是美国HONEYWELL公司近年推出的新型DCS系统,与原TDC3000系统类似.按网络结构可分为三层:最基层是相互冗余的UCN万能控制
[摘要]云计算是时下热门的计算机讨论话题。新型技术利用资源的共享化来实现IT互联网更快捷、简便的服务。云计算的成功运用促使计算机行业不断进步发展,为其提供发展的契机与动力,但是云计算毕竟是一种新兴技术,其发展还存在不完善的一些地方,云计算的安全问题表现在许多方面上,但是主要还是在数据的维护与安全上,本文就针对云计算的发展历程以及在数据安全上所出现的问题来进行分析探讨。  [关键词]云计算 技术发展
对φ3.0 m煤气炉生产强度低、消耗高的原因进行了分析,提出了炉底盘中心孔扩径、提高炉膛高度等改造方案并加以实施,取得了较好的效果.
【摘要】 高中化学实验课由于操作空间有限,影响了教学效果,同时化学实验还存在一定的危险性。把多媒体技术引入化学课堂,用多媒体补充实验背景知识,还方便了教师多次演示,增强了教学效果。用多媒体演示化学实验过程,在可能存在危险的地方运用多媒体,能够避免化学试验中危险发生,为我们带来了安全课堂。多媒体技术表现形式生动形象,容易引起学生的兴趣,为课堂教学的顺利进行提供了保障。  【关键词】 高中化学 实验课
【摘要】 本文针对XX移动PTN系统LTE承载、集团客户承载平台现状,结合未来3~5年业务需求预测,对PTN系统存在问题经行分析,为满足后期业务发展提出XX移动PTN网络发展和演进策略。  【关键词】 LTE承载 集团客户承载 SDN SPTN PTN 100G  一、概述  XX移动传送网形成以OTN为基础、PTN承载的大容量骨干传送网络架构,实现对基站、集客等业务的统一承载。未来伴随LTE业务
1淬冷系统的故障1982年,我公司从西欧引进一套年产12kt三聚氰胺生产装置.由于工程设计上的缺陷,开车一直不正常.后经我公司技术改造,装置方能投入运行,生产出合格产品.在装置