硬盘厂商耍了我们?

来源 :微型计算机 | 被引量 : 0次 | 上传用户:zjl658788
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2007年2月以来,不少英文网站转载了质疑硬盘平均故障间隔时间的文章,各中文网站上也有一篇内容相似的文章被互相转载,许多网友参与了声讨硬盘制造商弄虚作假的行动之中。究竟是怎么回事呢?
  硬盘的规格参数表中常常会出现这样一个数据:MTBF(mean time between failures,平均故障间隔时间),它是表明产品可靠性的参数,单位为“小时”(hrs)。
  对于这样一个参数,业界存在两种解释:无故障时间或将要出故障的时间。两种说法反映了人们对同一问题的不同观点:第一种说法是假设驱动器永远不出故障,而第二种说法正好相反,就是迟早会出故障。
  
  制造商是说谎的匹诺曹?
  
  MTBF是硬盘制造商通过短期测试并经数学计算得出的统计学结果。对于企业级硬盘来说,这一数据约为100万小时,有些驱动器甚至可达150万小时。乍看起来,用时间来描述硬盘故障率是一件好事,毕竟一年只有8760个小时,100万小时就是大约114年。但是,这样一个十分夸张的数字又实在让人难以接受。硬盘的历史不过50年(1956年蓝色巨人IBM RAMAC计算机中才开始使用305磁盘存储系统),更早的设备已弃置不用,更无据可查,如此说法根据何在呢?
  2007年2月13-16日,在美国加里福尼亚州圣琼斯举行的文件与存储技术会议USENIXFAST’07上,多篇论文通过大量存储实例和调查结果对硬盘制造商提供的MTBF提出质疑。最佳论文奖则颁给了卡内基梅隆大学的BiancaSchroeder和Garth Gibson两位学者,他们的论文标题是“现实中的磁盘故障:100万小时的MTBF对你意味着什么?”
  两位学者在研究过程中对10万个大型存储应用中(包括高性能计算机和网络服务器)的硬盘进行了跟踪调查,最终获得的统计数据显示,制造商给出MTBF数据与实际测试结果之间存在很大差异。譬如,按照MTBF为100-150万小时计算,即便在最坏的情况下,硬盘的年故障率也不过0.88%,而实际数字一般都会超过1%,通常在2-4%之间,在某些极端情况下高达13%以上,甚至24%。
  硬盘按照质量高下分为两个等级,企业级硬盘和桌面型硬盘。一般认为,企业级硬盘比桌面型SATA硬盘性能更好,不仅运行速度块,而且使用更为灵活,因而价格往往高出桌面型硬盘2倍以上。然而卡内基梅隆大学的两位学者发现,SCSI、FC与SATA三种硬盘在更换率上的差别并不大。这种现象隐约揭示了这样一个秘密:所谓的高性能硬盘,在可靠性方面并不比普通硬盘表现得更好。
  这一发现对硬盘制造商来说,无疑是当头一棒。如果事实真的并不像他们所宣称的那样,他们就应该向公众做出解释了,否则就有商业欺诈的嫌疑。
  两位学者的文章公开以后,在社会上引起了很大反响,公众对MTBF数据的质疑声几乎一夜之间全面爆发,多篇博客文章,要求硬盘制造商对此问题做出解释。其中最有代表性的是Robin Harris写的一篇名为“Everythingyou know about disks is wrong(你对磁盘的认识全都错了)”的文章,这篇文章抱怨说,“我相信许多用户都能举出几个不愉快的实例,但是,本应比用户了解得更多的制造公司,不仅对事实视而不见,而且在有意说谎。”
  看来,制造商与用户间的鸿沟已经形成,一场关于硬盘寿命的争论在所难免。
  
  “明年,你的硬盘也许就挂了!”
  
  硬盘故障可能来自设计缺陷、制造缺陷,运输、销售和使用的各个环节中。制造和运输环节中的意外情况,会导致硬盘在交付给消费者手中之前损坏或产生质量瑕疵。而当硬盘投入使用之后,也有很多因素会导致硬盘损坏,总的来说可以分为两类,一类是随机性因素,另一类是必然性因素。
  人们一般认为,电脑硬件在产品生命周期的开始阶段故障率较高但呈现下降趋势(幼儿死亡效应),此后会平稳运行5-7年,而后进入磨损期,失效率攀升。而Bianca Schroeder和Garth Gibson得出的统计数据显示,硬盘的失效率也存在密切的时间相关性,但与其他硬件规律不同——并不遵循浴盆曲线规律。
  为了证明硬盘的故障规律,卡内基梅隆大学的BiancaSchroeder和Garth Gibson进行了为期5年的艰苦调查(2001年-2006年),收集了大量数据。这些数据来源于包括高性能计算和大型网络服务器在内的硬盘替换日志。由生产日志产生的分类汇总统计结果,记录了10万块硬盘从1个月到5年的统计数据,而这10万块硬盘至少来自四个不同的厂家,磁盘类型包括SCSI、FC来代表企业级的稳定型硬盘,同时也包括SATA接口,来代表桌面系统和其它相关系统。这样,调查数据就具有了广泛的代表性。
  最后,他们用统计学方法形成了一个结果。结果显示,硬盘的故障规律与普通设备的浴盆曲线大相径庭。普通设备投入使用后,第1年为故障高发期,从第2年到第5年为使用生命期,期间故障率维持在很低的水平。而硬盘不同,它在投入使用的第1年故障率最低,从第2年开始,故障率却突然升高,而且此后维持在一个较高的水平上。也就是说,传统意义上的使用生命期根本就不存在!
  这个发现实在出乎所有人的意料,就连研究者本人也认为极具戏剧性。不过,Google研究团队的研究结果与之基本一致,可以互为旁证。
  
  硬盘到你手中之前,可能就已“伤痕累累”
  
  果园里刚摘下的苹果个个新鲜,百分之百合格,而经过运输和贮存,出售给消费者时难免会有烂苹果出现。这个道理再简单不过了吧。
  硬盘被如何运输,如何保管,如何使用,诸如此类的问题,确实是目前的MTBF模型难以精确计算的。尽管在每一种应用场合,每一台机器,以及每一次硬盘安装过程,情况可能都不相同,但硬盘制造商给出的MTBF数据,与实际运行结果之间的巨大差异,却是一个被证实的事实。
  两年前,笔者曾在马来西亚遇到一个硬盘分析家,他在参观了硬盘工厂后,站在港口的码头上,观察装满硬盘的集装箱装到船上的过程。突然,他对笔者说,链子掉了,整个集装箱就将掉到水泥的码头上,链子被重新固定后,集装箱再次升起,硬盘仍然会堂而皇之地进入市场,卖到用户手中。
  这位分析家说,他看到了这样一种趋势:业内人士(流水线上的操作工人,运输工人和营销人员)正在越发粗暴地对待硬盘,尤其是对3.5英寸机械装置。2.5寸笔记本硬盘采用了抗震设计,使得它能够经得住力量稍大的敲打,人们也许已经习惯于以相同态度对待3.5英寸硬盘。
  这位分析家不无感慨地说,沿着供应链流动,任何情况都可能出现。事实情况正如分析家所言,有些硬盘在制造和运输过程中就已经出了毛病,其中的部分产品在经过维修后又卖到了用户手中,而且贴上了优质品的标签。只是因为其 间的过程和细节并未记录在案,电脑用户毫不知情罢了。
  
  MTBF只表示出厂前状态,不能用它推算硬盘寿命
  
  读者一定想知道硬盘制造商是如何给出MTBF时间的。笔者在Samsung网站看到了这样的计算公式:MTBF=测试时间×样品数÷失效样品数。
  在计算公式下方,Samsung公司还说明了相应的测试方法:测试时间为72小时,样品数量为120件。
  既有公式,又有测试方法,给出的结果应是无可挑剔了。但是,为何实际的故障率远远超出硬盘制造商提供的数据呢?
  为了把这个问题分析透彻,让我们先回过头来观察所显示的硬盘故障规律:硬盘在使用初期的故障率是比较低的,如果此时在实验室对新硬盘进行测试,所获得的失效率当然很低,计算出的MTBF时间也就比较长。而卡内基梅隆大学两位学者的数据来自为5年间的实际工作环境,而从第2年开始,硬盘的故障率已比第1年提高了3-4倍。两相比较,测试时机不同,测试环境不同,获得的结果自然不同了。
  从MTBF数据的获取方法,我们可以肯定地说,制造商给出的MTBF至多说明了硬盘在出厂前的状态,而不能代表投入应用后的性能表现。从技术角度分析,随着应用时间的推移,其性能表现不可能维持不变,而只会越来越差。同一批产品,如果在使用了5年之后再次进行测试,所得结果必将低于出厂前的数值。
  本文开头曾经谈及,100万小时的MTBF可以换算为114年,就是说“硬盘的平均寿命可达百年以上”。这样一个令人啼笑皆非的判断显然是错误的,为了说明发生错误的原因,我们不妨引用一篇名为“关于BT下载伤硬盘的深度分析”文章。这篇文章对产生错误推断的原因进行了剖析,很具说服力。文章引用了这样一个例子:美国人每年的千人死亡率约为1.1,换算为寿命就是910年(1000÷1.1)。这显然不合常理:即使最长寿的人,也不可能活到910岁。究其原因,是在计算中忽略了人的身体会随年龄增长而趋于衰老的因素。
  同样的道理,简单地用MTBF时间来推算硬盘寿命的做法之所以会犯错误,也是忽视了硬盘故障率随使用年限增长而不断升高的因素。用数学语言来描述就是,变量被常量所取代,而该变量会随时间的增长而呈指数级数增长。
  写到这里,我突然想起去年夏天SNUG(一个网络存储组织)在拉斯维加斯举办会议上,一个经销商就直言不讳地批评制造商:“不要再出版那种废话了”。
  
  S.M.A.RT——并不是很聪明
  
  对于电脑用户来说,硬盘损坏是一件很可怕、很麻烦的事情,因为它带来的不仅仅是经济损失,经济损失只不过是重新购买的费用,而数据丢失造成的损失才是无法估量的。所以,在硬盘损坏前,了解硬盘的运行状况,及时备份数据,未雨绸缪才是我们要做的。
  幸运的是,IBM开发了一款工具软件,可以帮助用户预测故障,这就是S.M.A.R.T。它是Self-MonitoringAnalysis and Reporting Technology(自动检测分析及报告技术)的简写。这款软件通常被固化在BIOS芯片中,能对硬盘的磁头单元、硬盘温度、盘片表面介质材料、马达及其驱动系统、硬盘内部电路等进行监测,并向用户报告硬盘中存在的问题。
  汽车中的油位受到全程监视,当到达某一极限时,监视系统向驾驶者发出警报,避免了灾难性事故的发生。S.M.A.R.T故障分析项目涵盖了机械和电子环境,人们希望它能像汽车中的油位报警系统一样工作。
  Google的工程师们在一项关于大型磁盘驱动器群的故障趋势报告中指出,让S.M.A.R.T程序处于正常运行状态,是预测磁盘失效的一个有效措施。一旦S.M.A.R.T扫描磁盘并定位错误时,驱动器将在此后的两个月内出现39次错误。因此,“第一次错误”非常有利于进行故障预报。
  在英文里,“SMART”一词有巧妙、聪明的意思。遗憾的是,硬盘里的S.M.A.R.T技术还不是足够的聪明。尽管S.M.A.R.T经常可以预报故障,但Google的研究人员还是发现,基于独立参数故障预测模型的S.M.A.R.T,其预测功能是有限的,一些硬盘在发生故障之前,S.M.A.R.T并未给出任何故障预警信息。Google的Eduardo Pinheiro、Wolf-Dietrich Weber和Luiz Andre Barroso在一份研究报告中说,在高温和过度使用两种情形下,S.M.A.R.T的监测功能就不起作用了。故障会随时发生,数据需妥善保管
  理不辨不明。通过上文的介绍,我们已经知道,制造商给出的MTBF数据仅代表硬盘出厂前的状态,而不能简单地换算成硬盘寿命。如果制造商不对沿用多年的MTBF计算方法进行科学修正,让它对用户更有意义,研究者与制造商双方对这个问题的认识就不可能取得一致。虽然这场争论才刚刚开始,但已经给电脑用户提了个醒:无论是制造商给出的MTBF,还是实际应用场合得到的故障率,都是统计学上的数据,而对于每一块硬盘,其故障率具有随机性。
  加利福尼亚州Mountain View公司的存储工业分析家Jim Porter说:“太多的应用场合,太多的管理工具,太多的硬盘种类。”在他看来,除了统计学方法之外,目前还没有其他更好的办法来检测硬盘的可靠性。
  同时,Jim Porter建议,“总有那么些硬盘会出问题,这就是为什么要发展RAID存储系统的理由。毕竟在一个存储系统里,两个驱动器同时发生故障的概率很低。”Porter的建议当然有他的道理,但对于众多的桌面型用户来说,Jim Porter的建议实际意义并不大。因为从成本方面考虑,不能要求普通PC里面都要挂上两块硬盘。不过,以目前的技术手段,还是有很多办法来解决数据安全问题,譬如你可以把数据定期备份到光盘或U盘中,也可以存储到ftp服务器或网络存储器中。
  总之,你的硬盘也许明年就要挂了,也许它还能稳定地工作数年,但它绝不会长命百年,这是制造商不得不承认的事实。既然如此,我们就应做到未雨绸缪,不要把全部的鸡蛋放在一个篮子里。至少,在光存储和闪存已经相当成熟的今天,我们用来装“鸡蛋”的“篮子”不仅仅只有硬盘而已。
其他文献
通过对2008年国内外信息技术领域发生的知识产权纠纷进行整理和解读.以期为国内知识产权界专家的研究工作、为企业市场和知识产权策略的制定提供一份较为详尽和客观的参考。
指纹识别器出现在越来越多的低价位笔记本电脑当中,虽然它是非常优秀的安全技术,但却在这种盲目的“普及”当中尴尬万分——初级用户看它为多余,高端用户则视为鸡肋。这种情况并
概述了国内外对沙棘资源的开发利用研究状况,分析了黄酮类化合物的结构和药用价值,论述了从沙棘中提取黄酮类化合物的可行性工艺流程及其用途.利用沙棘叶和沙棘油废渣提取黄
结合安徽省太和县农机推广站近年来的做法和经验,提出了要把服务创新作为农机推广工作“入世”切入点的新思路。
从所涉当事人、所涉行业和技术的受关注程度、对后续同类事件的影响以及对产业发展的影响等角度,选择2009年度中外信息产业知识产权典型案例,进行简要介绍与评述。
内保外贷是跨境担保的一种,当前在境内贷款额度收紧以及人民币汇率波动双重因素影响下,不少银行"内保外贷"业务急剧升温,从而使银行内保外贷履约成为资金流出的一个重要渠道
近年来,历次中国公众科学素养调查数据均显示:科学纪录片不仅是中国进行有效全民科普的重要组成部分,而且堪称当代中国科学传播的主力军。科学纪录片是以科学精神为背景,以科
山西省平遥县广大农村经济发展不平衡,温饱型、个别贫困型依然存在,平遥县42万农业人口温饱型和贫困型人口占到22%,达9万人之多。在我国加入WTO后,农业有机遇更有挑战,面对这样的状
看完这封来信,我们用读者提供的硬盘标签上的信息分别在希捷和伟仕的官方网站上进行查询。前者给出的查询结果和读者所描述的完全相符,后者则声称序列号无法识别,看来这台硬盘的身份愈发扑朔迷离。接下来。在希捷工作人员的建议下我们拨打了希捷客服热线(800—810-9668),得到如下回复:    1 型号为ST3400833AS的硬盘属于希捷酷鱼7200.9系列;    2 既然希捷官方网站上的查询结果为“