应急上演生死时速

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:humeiyu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “8·12”天津港爆炸事故已经过去了4个多月,距离中心爆炸点仅1.5公里的腾讯亚洲最大数据中心到底受损情况如何,又是如何度过这一劫的?经历了迄今为止唯一一例实际发生的国内超大型数据中心遇险事件,腾讯天津数据中心的应急经验和获得的启示是否值得数据中心行业的同仁们借鉴呢?
   “8·12”天津港爆炸事故已经过去了4个多月,距离中心爆炸点仅1.5公里的腾讯亚洲最大数据中心到底受损情况如何,又是如何度过这一劫的?
   当时,腾讯的官方说法只有寥寥几句,比如“部分爆炸气浪冲击到了数据中心建筑主体”,“发现个别故障点,影响范围较小”。
   不过,在不久前举行的第二届腾讯云 数据中心开放日上,来自腾讯云的专家首度曝光了天津数据中心在爆炸发生时现场摄像头拍摄的视频,仅仅22秒却极其震撼。此外,专家也详细介绍了数据中心的受损情况,以及现场应急处理措施。
   在数据越来越重要的今天,各个数据中心为确保万无一失,纷纷制定应急预案、灾备方案,并进行演练。不过,恐怕国内真正实操的也只有天津港爆炸事故周边的数据中心。目前,腾讯天津数据中心是国内唯一一家分享这一灾难应急实例的数据中心。
  受损情况大曝光
   记者去年曾经参观过腾讯天津数据中心,这是腾讯在亚洲最大的数据中心,占地8万平方米,服务器超过20万台。这一超大型数据中心在“8·12”当天扛过了这场灾难,所有业务运行稳定,难道是侥幸逃过一劫?要知道它距离中心爆炸点仅仅1.5公里。
   腾讯IDC平台部天津数据中心经理韩建军完整分享了天津港爆炸事故的经历。他首次曝光了一组照片,从中可以看到数据中心当时的受损情况,包括严重变形的大门、整体墙体的垮塌、二层IT机房和三层IT机房的损毁情况。另外,他首次曝光了当时的摄像头视频记录,主要涉及冷机房、值班室和IT机房。
   那么,8·12天津港爆炸事故带给腾讯天津数据中心具体什么损伤呢?第一,整个冷机系统宕机;第二,冷冻水管发生爆管;第三,地下水发生严重水浸。
   现场工程师经过20分钟的紧急排查,40分钟之内做出归纳总结,发现八大主要故障,包括50%单套冷机宕机、三号楼大量的冷冻水管漏水、BA系统失效、智能系统基本瘫痪、柴发系统受损、IT机房受损等。
  应急上演生死时速
   面对这种紧急情况,专业工程师需要做什么?
   据韩建军介绍,腾讯平时有多套应急预案,对应不同的故障采用对应的应急演习预案:比如,空调漏水紧急采用手动止动阀门,BA系统失效采用手动方式恢复系统正常运行……80分钟之内,系统恢复正常。
   他还分享了一组数据,重新回顾了从事件发生到处理的整个过程,在经历了爆炸事故发生后的126分钟内,对于数据中心的业务可谓“生死时速”。通常腾
  讯天津数据中心正常巡检都要90分钟,这次只用126分钟就进行了所有的故障处理,使得系统正常运行。
   90分钟后,腾讯才得到爆炸事故的确切回应,了解到是距离较近的危险品仓库发生爆炸,同时启动了对应的地震应急预案。126分钟以后,他们对整个园区内所有受损的危险区域做了完整的标识,现场秩序基本恢复。
   天津港爆炸事故既是对腾讯天津数据中心团队的考验,也带来了许多启示。首先,作为一个运营团队,必须有一套完整的应急预案。
   据悉,这套完整的应急预案是腾讯按照风险五步法,从风险的识别,风险分析,应急方案制订、应急方案执行,风险评估和改进。在2014年到2015年,腾讯天津数据中心发现风险点136个,针对这些风险点制订了66项方案,平时通过演练最终完成71项方案的执行。据韩建军透露,腾讯天津数据中心基本每周都有一次不同级别的演习,从工程师到一线人员全部参与。
   当然,也有人疑惑数据中心选址:腾讯为什么把数据中心建在危险品仓库附近?韩建军对此表示,腾讯严格按照数据中心选址规范,危险品仓库是腾讯天津数据中心落成一年后才建立起来的。这同时给腾讯很大启示,即“对于选址的评估工作不是做一次就够,一定要定期做,年年做,腾讯已在全国范围内的数据中心实行。”
  远程控制与动态迁移
   其实,“8·12”大爆炸事故第二天,腾讯数据中心面临的环境更加危险。为了预防再次爆炸的可能,所有
  数据中心人员都被紧急撤离到20公里之外,整个数据中心处于无人值守状态。腾讯天津团队通过远程控制系统对整个数据中心进行控制,并远程处理相关信息669条,异常报警26起。自然,后台的自动化系统功不可没,这就是腾讯自动化控制平台——阿凡达。
   据悉,腾讯天津数据中心有15300多个设备,143000个测点,如果对所有设计测点进行测试,会出现很多的报警信息。阿凡达平台的“不凡”之处在于管控信息立体化,不孤立看待设备和测点,建立设备之间的关系,在逻辑基础之上综合看待报警发生。
   尤其值得一提的是,腾讯天津数据中心运维专家的经验丰富,管理流程规范,通过管理工具沉淀到自动化系统中,推广到全新的数据中心。腾讯在全国目前拥有56个IDC,分布在13个城市,独立机房180个。
   此外,“8·12”天津港爆炸事故当天和爆炸之后的一周,腾讯一方面抢修受损的天津数据中心,另一方面把天津数据中心承载的大部分业务迁移动到深圳和上海的数据中心。这表明,腾讯已经实现了全国范围内IDC资源的动态调配。
   据悉,谷歌三年前已经实现全球业务的调配,比如夏季把主要业务迁到北欧的数据中心以节省能源、降低成本。腾讯此举也说明,通过足够的计算能力和网络出口能力,可以让数据和业务在全国范围的云数据中心中转换迁移。
   作为“8·12”天津港爆炸事故中遇险的国内超大型数据中心,腾讯的经验值得数据中心行业同仁关注。
其他文献
本报讯 1月14至15日,全国无线电管理工作会议在南宁召开,会议传达了全国工业和信息化工作会议精神,总结了2012年全国无线电管理工作,分析了无线电管理工作面临的形势和问题,安排部署了2013年无线电管理重点工作。工业和信息化部副部长刘利华出席会议并对全国无线电管理工作提出要求。  会上,刘利华介绍了全国工业和信息化工作会议情况,充分肯定了全国各级无线电管理机构在管理无线电频谱资源、管理无线电台站
一年一度的“中国计算机网络安全大会”于近日在武汉市召开。今年大会的主题是“智能网络·安全护航”,更加突出了在新的威胁和攻击面前,智能应对的重要性。  大会主办单位、国家计算机网络应急技术处理协调中心(CNCERT/CC)主任黄澄清指出,随着互联网与传统行业深度融合,“互联网 ”作为新一轮互联网应用浪潮和新的经济形态,提升了经济社会的创新力和生产力,形成了以互联网为基础设施的经济发展新形态。然而,当
程序化购买浪潮不断带来行业创新与发展,随之而来的也有无法衡量的营销效果。如何打破这一困境,更好地保护广告主的利益?璧合科技创始人刘俊丰在10月14日璧合AGAIN新产品发布会上接受本报记者采访时称,只有从以前“封闭”的系统走向开放式的自助系统。程序化购买的终极环境是提供开放、自助的平台,打造系统生态链。  在营销技术领域,目前最热和使用最广的就是程序化购买。根据艾瑞咨询估算,2012年整个程序化购
浪潮宣布投资100亿元,在全国布局云计算中心。浪潮云面向的是区域政府、行业部委和大型企业。它不满足于只做线上生意,而是要面对面为行业客户提供服务。  7月16日,浪潮云浮出水面。在北京举行的浪潮云战略发布会上,浪潮集团董事长兼CEO孙丕恕表示,借助云计算这股东风,浪潮希望从一个产品和解决方案提供商转型为一个真正的服务提供商。  向服务商转型  现在,一提到云服务,大家首先想到的就是公有云服务。其实
爱普生的打印机产品一直以省、好、多为其最大诉求。爱普生的打印机一直以能够为用户进一步降低日常使用成本,打印更高质量的文档,为用户提供更多的功能为己任。爱普生最新推出的墨仓式商务办公彩色传真一体机L655就是以这种理念设计的新品。  L655是一款集打印、复印、扫描、传真四大办公常用功能于一身。其全新升级的墨仓让原本已经很低的打印成本进一步降低,让办公用户真正得到实惠。L655采用了一体式墨仓设计,
在历史上的每一个技术转型期,惠普公司都能积极应对并有良好的表现。现在,云计算成了惠普又一次业务转型的抓手。惠普Helion之所以进展顺利,主要依靠的是惠普内部各个部门的精诚合作。惠普对Helion的发展前景非常乐观。  3月大会小会讲云计算,你会觉得审美疲劳吗?这是因为当前云计算仍然“说得多,做得少”。虽然现在大家都把目光转向了云应用落地,但是用什么样的方法让云落地,如何检验云落地的效果,现在仍处
本报讯 5月27日—29日,由工业和信息化部等部委主办,中国软件行业协会等承办的2015第十九届中国国际软件博览会(以下简称“软博会”)在北京展览馆举行。作为中国中西部首个软件名城、“一带一路”和长江经济带重要交汇点,四川·成都的展团在省市经信委的率领下,由省市软件行业协会组织了38家软件和信息技术服务企业参加,展示了四川省和成都市大力发展软件服务业、促进国民经济和社会进步的成就,并进一步加强了与
随着云知声2014年云、端、芯战略的全面启动,云知声在芯片平台上已取得了重大突破。日前,云知声已经和全球领先的芯片供应商英特尔公司牵手合作,将云知声智能语音交互技术植入到英特尔移动平台上。  全球领先芯片供应商的选择  作为国内发展速度超快的语音公司之一,云知声成立两年多来频频传来捷报,从最初以移动互联网切入,到现在已经在智能家电、车载、可穿戴设备、在线教育、智能客服等多个领域和行业领先的合作伙伴
“您对中国源如何评价?”记者问。“这是中国软件开发领域的悲哀。”恒拓开源信息科技有限公司创始人兼CEO马越的这一回答让记者有些意外,“这样的支持本土开源原创项目的协作开发平台早就应该有了。中国源的年轻人做了一件非常牛的事。过去20多年中,中国原创的开源软件只有1000多个。但是中国源从今年7月在阿里云平台上线以来,短短几个月时间,平台上聚集的中国原创的开源软件已近3万个,未来两年内可能会达到百万级
在创美工艺的工业4.0模型机上,客户只要用手机扫描生产设备的二维码,即可在通过手机选择颜色、图章和数量等后下达定制化订单。设备接到指令后自动安排生产,短短两分钟后,定制化的产品就可以从生产线传送出来。在实际生产中,创美工艺通过小批量、个性化的柔性制造,将定制产品交付时间缩短为48小时,而竞争对手往往需要一周。在很多企业还在讨论工业4.0概念时,创美工艺是如何逐步向工业4.0迈进的呢?  创美工艺(