论文部分内容阅读
观 点
我们应该相信服务提供商会尽可能提供最好的服务,但却不可尽信其做出的种种保证。IT企业要做好应对任何突发状况的准备,不能完全依赖于服务提供商。
7月24日,著名的Craigslist社区从互联网上“消失”了。随后,LiveJouranl和Technorati也不见了。据说包括CNET.com和第二生命等很多网站也都消失了一段时间。怎么了?他们共用的数据中心由于停电瘫痪了。就这么简单。要不是数据中心会受此影响,他们可能永远也不会担心停电问题。
数据中心提供商365 Main公司,也就是旧金山“大瘫痪”中受到影响最大的设备拥有者,它最重要的营销卖点就是向用户提供永续的电力。一旦地区供电出现了问题,它那10.3万马力的柴油发电机组将自动运行,直到稳定电力恢复。
过去,365 Main公司一直是这样做的。但这次却有些不同。当天,外部电力开始疯狂变动。附近的地下变压器爆炸了。旧金山市区的大部分区域都停电了,包括金融区。受到影响的客户至少有5万个。由于某些原因——这些原因365 main公司正在调查之中,有些备用发电机没有按照预期计划运行,工程师花了45分钟才手动使这些发电站再次运行。
到那时为止,365 Main公司20%~40%的客户,包括Craigslist和LiveJournal已经蒙受了损失。他们的服务器突然瘫痪,公司所依赖的“神奇的”、“永续的”服务并没有出现,那些服务器不得不缓慢地、小心地再次启动。
运气好的,断线时间只有这几个小时。但即使只是几个小时,对他们而言,“魔法”也消失了。而对其他人更是如此。
是我们该接受残酷事实的时候了。事故总会出现的。无论我们如何计划以防万一,事故还是会出现的。人算不如天算,无论我们付钱给谁来处理事故,也无论我们付多少钱给他,更无论他们曾向我们做过什么样的承诺。
任何设置和外包都没有用——至少在我们期望他们能够解决商业可持续性方面是没用的。他们做不到这点。他们没有这个能力,我们也不能完全指望他们去做这项工作。实际上,我们应该假设他们不会这样做,然后做出相应的计划。
这次的事件就是最好的证明,即使像365 Main公司这样保证永不断电的公司在事故发生后,也很难采取任何措施。他们的承诺没有兑现,问题不是失去了销量和顾客,而是失去了信心。
那么,外包就是一个错误的举措吗?当然不是。只是过分相信承包商是错误的。
我们必须相信他们会尽其所能。否则,我们就无法和他们做生意。但不管他们色彩绚丽的宣传册说什么,我们也必须保持清醒,始终牢记他们不是完美的, 我们可以移交工作,但我们不能将公司的IT责任也移交给别人,这还是我们自己的。
这意味着我们不能外包一个个不眠夜;我们不能不考虑突发状况和种种小概率事件。谈到可靠性,担心是好的。信赖?不那么好。
本来,365 Main公司的顾客之一,在线零售商RedEnvelope有个很好的主意。RedEnvelope在俄亥俄州维持着一个支持数据中心,以避免上周出现的那种问题所带来的后果。
但由于两年来旧金山都没出过任何问题,365 Main公司发布了一条新闻,宣布RedEnvelope关闭了俄亥俄州的备用设施。那是在7月24日早晨宣布的,当天下午,RedEnvelope掉线了。
我们应该相信服务提供商会尽可能提供最好的服务,但却不可尽信其做出的种种保证。IT企业要做好应对任何突发状况的准备,不能完全依赖于服务提供商。
7月24日,著名的Craigslist社区从互联网上“消失”了。随后,LiveJouranl和Technorati也不见了。据说包括CNET.com和第二生命等很多网站也都消失了一段时间。怎么了?他们共用的数据中心由于停电瘫痪了。就这么简单。要不是数据中心会受此影响,他们可能永远也不会担心停电问题。
数据中心提供商365 Main公司,也就是旧金山“大瘫痪”中受到影响最大的设备拥有者,它最重要的营销卖点就是向用户提供永续的电力。一旦地区供电出现了问题,它那10.3万马力的柴油发电机组将自动运行,直到稳定电力恢复。
过去,365 Main公司一直是这样做的。但这次却有些不同。当天,外部电力开始疯狂变动。附近的地下变压器爆炸了。旧金山市区的大部分区域都停电了,包括金融区。受到影响的客户至少有5万个。由于某些原因——这些原因365 main公司正在调查之中,有些备用发电机没有按照预期计划运行,工程师花了45分钟才手动使这些发电站再次运行。
到那时为止,365 Main公司20%~40%的客户,包括Craigslist和LiveJournal已经蒙受了损失。他们的服务器突然瘫痪,公司所依赖的“神奇的”、“永续的”服务并没有出现,那些服务器不得不缓慢地、小心地再次启动。
运气好的,断线时间只有这几个小时。但即使只是几个小时,对他们而言,“魔法”也消失了。而对其他人更是如此。
是我们该接受残酷事实的时候了。事故总会出现的。无论我们如何计划以防万一,事故还是会出现的。人算不如天算,无论我们付钱给谁来处理事故,也无论我们付多少钱给他,更无论他们曾向我们做过什么样的承诺。
任何设置和外包都没有用——至少在我们期望他们能够解决商业可持续性方面是没用的。他们做不到这点。他们没有这个能力,我们也不能完全指望他们去做这项工作。实际上,我们应该假设他们不会这样做,然后做出相应的计划。
这次的事件就是最好的证明,即使像365 Main公司这样保证永不断电的公司在事故发生后,也很难采取任何措施。他们的承诺没有兑现,问题不是失去了销量和顾客,而是失去了信心。
那么,外包就是一个错误的举措吗?当然不是。只是过分相信承包商是错误的。
我们必须相信他们会尽其所能。否则,我们就无法和他们做生意。但不管他们色彩绚丽的宣传册说什么,我们也必须保持清醒,始终牢记他们不是完美的, 我们可以移交工作,但我们不能将公司的IT责任也移交给别人,这还是我们自己的。
这意味着我们不能外包一个个不眠夜;我们不能不考虑突发状况和种种小概率事件。谈到可靠性,担心是好的。信赖?不那么好。
本来,365 Main公司的顾客之一,在线零售商RedEnvelope有个很好的主意。RedEnvelope在俄亥俄州维持着一个支持数据中心,以避免上周出现的那种问题所带来的后果。
但由于两年来旧金山都没出过任何问题,365 Main公司发布了一条新闻,宣布RedEnvelope关闭了俄亥俄州的备用设施。那是在7月24日早晨宣布的,当天下午,RedEnvelope掉线了。