主存储缩减技术浮出水面

来源 :计算机世界 | 被引量 : 0次 | 上传用户:hulichu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据压缩和重复数据删除技术对于存储业界都已经不陌生了,但我们通常都是在备份和归档时应用它们。那么,在业务繁忙的主存储(在线存储)系统中能否将它们派上用场,以减少主存储的容量需求呢?
  尽管主存储数据缩减技术通常被认为用于备份,但这项技术存在已颇有一段时日了。自上世纪90年代中期以来,已经有操作系统和操作系统的附加实用工具可以在主存储设备上实时压缩或后台压缩数据了。但由于近几年磁盘价格稳步下跌,主存储数据缩减基本上沦为了摆设。不过近来,人们重新对节省空间的技术产生了兴趣,许多企业再次考虑为主数据采用数据缩减技术。
  什么因素让人们重新有了兴趣?可供数据中心经理们考虑的一些方案又有哪些?
  主存储数据缩减技术东山再起,在很大程度上取决于两个条件:文件保留需求的增加,以及廉价存储可用性的降低。
  现在用户对存储容量的需求有增无减,但存储设备的扩充总会达到极限。用户创建的文件数量越来越多,每个文件也越来越庞大,而且法律上对文件的保留有了更多的要求。尽管几年前存储容量的成本还相对较低,但在过去的一年里,许多数据中心的管理人员发现,一味地增加存储容量已不再是应对数据增长的成本较低的解决方案。因为除了管理多个存储系统的成本外,存储对电力、冷却和场地的影响也成为重要的因素,必须列入存储所有这些数据的总成本中。另外,严峻的经济形势和存储预算的减少使情况更加严峻,迫使存储经理们更充分地利用存储容量资源。
  数据缩减技术正是帮助他们实现这个目标的首要工具。
  如果IT经理扪心自问,就明白主存储数据缩减技术其实治标不治本。在理想的情况下,主存储中的数据有一大部分应该删除或转移到次级存储设备上。可是,数据中心的实际情况并不尽如人意。存储常常作为一项服务配置给用户,因而,用户不希望自己的数据被转移,更不希望被删除。诸如此类的任何操作对他们来说必须是透明的。由此看来,最容易被接受的办法就是从同样大小的存储空间中获取更多的容量,而又不用转移用户数据。因此,数据缩减技术成为首选的技术,它所带来的变化有限,其中大多数优化都不需要用户操心。
  
  优化技术
  
  考虑主存储数据缩减时,两项优化技术首当其冲:数据压缩和重复数据删除。
  尽管重复数据删除技术常在媒体上抛头露面,但数据压缩在主存储领域也许有更大的价值。这是因为重复数据删除需要有冗余的数据才能发挥作用,这也是为什么数据备份中应用重复数据删除技术,能使资金的投入有很好的回报,因为那些每周进行的完全备份几乎相同。而主存储的冗余性与备份数据不一样,至少应该不一样,虚拟机映像可能除外。因此,重复数据删除处理主存储数据的效率通常只有处理备份数据效率的1/3。
  另一方面,数据压缩技术适用于几乎各种数据。虽然就处理高度冗余的数据而言,数据压缩不如重复数据删除来得有效,但主存储上的大部分数据可以压缩。另外,还可以针对数据类型对数据压缩进行微调,或利用特殊的压缩设备来缩减某些数据集。当然,其代价是要耗费处理器资源。
  在理想情况下,数据压缩和重复数据删除应该结合使用,以便最大限度地回收利用主存储容量。
  何处进行数据缩减?
  需要考虑的另一个问题是:在何处进行容量优化,以及谁来处理优化?
  如今,数据缩减最常出现在文件服务系统上,比如网络附加存储(NAS)或文件服务器。而要不要缩减数据,通常取决于存储硬件提供商,或文件系统,或通过第三方以附件形式来提供的设备。以NAS硬件为例,处理数据缩减任务的通常是文件系统本身。也有一些厂商提供独立的文件系统或NAS软件,它们可以安装到现有硬件上,以提供数据缩减机制。
  显然,如果目前使用的NAS或文件系统有这项功能的话,采用文件系统的方法只适用于数据中心。这也意味着,只有该厂商的NAS存储硬件设备得到支持。如果环境中有诸多厂商的产品,或者厂商目前在其系统中不提供数据优化服务,那么用户需要借助第三方独立软件开发商(ISV)来提供这项功能。除了这类厂商常常提供的专门化优势外,这么做有时会带来其他优点,比如更大的灵活性、更通用的优化方法,以及能够在不同厂商的平台之间转移数据。从产品开发的角度来看,用户只需关注数据缩减,没必要维护整个文件系统。
  迄今为止,基于块的系统上还没有太多的优化。尽管装载到传统磁盘上的文件系统也许能提供这项功能,但大多数存储阵列硬件还无法处理这项任务。不过,这在不久的将来可能会成为一个选项。随着厂商们开始推出有望在存储层之间转移数据块的自动化分层策略,不难想像,它们也能优化这些数据。
  据研究调查显示,多达85%的主存储数据不再被经常访问。这种情况至今持续了多年,由此催生了诸多技术方案,比如层次存储管理(HSM)、数据归档以及现在众所周知的信息生命周期管理(ILM)。
  尽管上述技术方案各有优点,值得探究,但现实情况是,许多数据中心需要迅速解决存储容量问题,没有时间或人员来实施完整的数据管理策略。因此,实际环境下的主存储通常保存了各种类别的数据:包括极其活跃的( extremely active)数据、近活跃的(near active)数据和不活跃(inactive)的数据(即陈旧的数据)。幸运的是,所有这些数据都可以得到优化。
  对于主存储中多种类别的数据来说,每项优化策略对存储生态系统都会带来各自的独特影响。系统在最初需要做出的决定之一就是应该何时优化数据,是该在数据访问时实时优化,还是在数据变得不常访问后优化?
  有几款解决方案可提供实时数据压缩,它们介于存储设备及访问点之间。在大多数情况下,这些系统不会给性能带来负面影响。标准的、不能识别内容的压缩是一种比较有效的算法,并不影响性能。另外,繁重的压缩工作经常会交给独立式设备去处理,使进出存储设备的数据已经经过了缩减,这就减轻了存储系统的负担。
  目前甚至还有这样的实时重复数据删除解决方案:数据在存储时与其他数据进行比较。尽管这种系统对性能会有一定影响——影响的大小取决于工作负载,但关系不大。针对主存储的实时重复数据删除还没有得到广泛接受,运用时要慎重。不管怎样,存储经理必须准备好解决实时优化影响存储性能方面的问题。
  实施数据优化的一种更常见的方法是,数据在闲置一段时间后进行优化。即使“不活跃的”这段时间只有短短几天,但这些数据被再次访问的可能性通常也很小。
  作为后台进程的一部分来优化数据,让非常活跃的数据可以保持原来形状,不用担心数据优化会影响非常活跃的文件或数据库的存储性能。在维护期间,可以检查文件系统上的未优化数据,看看它现在是不是适合优化。如果适合,随后它就将被压缩及/或重复数据删除处理。如果不适合(意味着数据仍在活跃范围内),它能继续以原来形状来存储。
  有些系统能够区分被访问的数据和被优化的数据,并能提供数据。这意味着经过优化的数据能够读取。在大多数情况下,当数据只是被访问或被读取时,数据缩减给性能带来的影响非常小;当数据首次需要优化时,其工作负载则比较大。一旦优化作为次级过程来完成,又不针对所有数据来优化,那么,的确能够优化大部分数据,并且消除性能影响方面的后顾之忧。
  
  归档替代方案
  
  要是不提到数据管理问题,那么对数据缩减方面的任何讨论都将是不全面的。缩减主存储空间的缺点是,尽管需要管理的物理组件相同,但典型系统上的数据量在继续增加。可以这么认为:优化使这种情况变得更糟,因为实际容量更大或物理设备更多后,管理人员再也“看不到”问题。此外,主存储数据缩减获得的优点常常仅限于主存储层。把这些数据转移到其他存储层或数据保护流程后,常常需要“重新膨胀”(re-inflated)成原来大小,然后等进入到次级存储位置时“重新优化”。尽管数据缩减技术厂商正在竭力解决这个问题,但如今问题依然存在。
  解决办法就是,不要把数据缩减当做“惟一方案”,而是当做总体计划中的一部分,总体计划应包括数据归档。归档的目的是把这些数据从主存储通道迁移出去,让这些数据远离数据保护流程,但又能做到需要时易于访问。
  归档系统也有类似的主存储数据缩减技术,但同时添加了充分利用密度更高、成本更低的驱动器,并可能关闭这些驱动器的电源的技术。这比单使用数据缩减技术能更进一步推迟对额外存储容量的购置。
  主存储数据缩减带来了实实在在的投资回报。实施该技术后,在大多数情况下,至少会“多出”50%的存储容量。只要本来就有购买额外存储容量的想法,这种解决方案应该会很快收回成本。这是开始实行影响更深远的数据管理策略的一个好办法。
  
  链接
  数据类型与数据缩减
  有些数据压缩系统,特别是那些将数据缩减处理作为次级过程的系统,可以用更多的时间来了解正在优化的数据类型,特别是压缩可以进行微调的数据类型。有一些特别的压缩算法适用于那些标准压缩引擎不能很好应对的众多数据类型。典型例子包括音频、视频和图像文件。
  图像是缩减起来特别困难的数据类型。图像对存储的需求日益增加,不只是照片共享网站,像大多数企业存储的文档图像、员工照片和施工现场的照片等。如果有更多的时间,一些优化解决方案甚至能够在可视化数据类型方面更进一步,从而缩减图像文件的大小。这就是通常所谓的“有损”(lossy)数据缩减技术,因为一部分图像质量丢失了。缩减照片的分辨率时就会出现这种情况;分辨率越低,照片在磁盘上占用的空间就越小。尽管这听上去不大称心如意,但这类系统有些能让图像看上去并没有损失,这意味着在我们的肉眼看来,图像在压缩前后看上去是一样的。随着企业中的图像库不断变得庞大,这些方法也会变得越来越重要。
其他文献
本报综合消息 近日,Gartner表示,2009年全球IT服务营收7630亿美元,较2008年8050亿美元衰退了5.3%,但根据三月份的预测,今年的服务营收可望增长5.7%。  2009年,IT服务供应商将业务重心从提高营收的策略,转变为单纯维持营收水准、控管成本和管理收益。  Gartner全球IT服务团队研究副总裁Kathryn Hale认为,对IT服务供应商来说,2009年是前所未见的一年
自Twitter出现开始,“微博客”热潮就一浪高过一浪。如今,随着新浪这样的门户网站,以及MySpace等SNS的纷纷加入,微博客再次升温。然而,热闹的背后,微博的先天缺陷和后天短板是否能够就此突破?    微博客(Microblog)这几天着实火。  8月底,新浪微博测试版上线。据记者了解,尽管新浪官方的注册码迅速流传,但绝大多数用户也仅仅是注册而已,并未掀起多少波澜。但9月初,李开复从谷歌辞职
最近,北京睿德英志公司联合创始人李亮有些苦恼:“好几个风投找了我们,也看了我们的创业团队和项目,但不知为何不投钱。”  睿德英志针对Andriod平台开发的Rockplayer已经获得了100多万的下载量,通过付费授权和广告模式,公司每个月都有一笔可观的收入。这在众多移动互联创业开发团队中已经算是不错的。原本想找个风投融点钱,再扩大一下研发团队,多做几个项目,但几个风投谈下来,却发现这个想法不容易
古都南京有700多万人口,2009年全市有卫生机构1764个(不含驻宁部队、武警系统),其中二级以上医疗机构61个,其他医院104个,社区卫生服务中心接97个,乡镇(街道)卫生院43个。南京在卫生信息化建设方面,有两个特点。一是隶属关系比较复杂。28家三级医院中,既有南京市属的10家三级医院,还有江苏省省属的,还有部属的、军队的三级医院,此外还有两家大型民营医院。隶属关系复杂,资源整合的难度就比较
"很多人担心,平板电脑出来后会影响PC销量,但事实是,产业对PC的计算需求依旧存在。随着PC越来越向中高端发展,PC的利润会越来越好。”  IDC近日举办的2011年液晶显示产业与市场展望论坛,对中国PC市场的机会和平板电脑市场的未来前景做了详细解读。IDC台湾PC与外围设备研究集团研究经理江芳韵表示,随着消费者越来越多地在室外使用平板电脑和智能手机,笔记本电脑将日渐成为一个室内工具,取代台式机目
自年初发布POWER7以来,IBM先后推出了一系列相应的产品及解决方案。日前,在2010年POWER应用开发商大会上,作为本年内POWER7产品的第三波发布,IBM推出了四款中、低端服务器,进一步为不同的工作负载提供优化的系统选择。同时,在软件、硬件、服务部和ISV伙伴通力合作下,针对用户不同的工作负载需求,IBM推出“天工计划”,提供整合调优的打包解决方案。会上,IBM还特别发布了名为“云引擎”
社交网站(SNS)和各种Web 2.0应用如今已经从个人应用渗透到企业应用,成为很多企业商业运营中不可或缺的技术手段。美国市场研究公司Forrester Research预计,到2013年时,企业用于Web 2.0技术的开支将高达46亿美元。然而,安全专家也提醒要注意社交网站和Web 2.0应用带来的安全风险。那么,社交网站和Web 2.0到底会带来哪些安全风险? 如何充分发挥它们的动态、交互特性
把多维度的概念引入电子病历中,可以创建出更为客观、科学、全面、精准地描述病人状况、治疗路线、处置方法、治疗结果等信息的电子病历系统。多维度电子病历将把电子病历带入科学发展的新阶段。    Good Samaritan Hospital是坐落于洛杉矶的美国最好的50家医院之一,在这家医院的一间病房中,护士小姐走进病房,为一名患者做护理翻身,翻身过程中患者发出“哎呦”一声,护士及时询问患者的感受和一般
本报综合消息在近日于美国拉斯维加斯举行的黑帽(Black Hat)技术大会上,安全研究人员指出,随着社交网站的日益风靡,在线社交网站很容易成为黑客的攻击对象,黑客可以很容易地利用人们的真实信息。MySpace和Facebook等社交网络已经成为黑客的攻击目标。  互联网安全专家海密尔和摩耶称,当前,越来越多的人们把自己的信息公布在社交网站上,为了定制个人页面,他们还下载由陌生人或团体开发的各种小应
逆金融危机而上    金融危机的肆虐使全球经济下挫,股市萎靡,在如此恶劣的产业环境下,网络游戏产业却呈现出风景这边独好的发展态势。中国出版工作者协会游戏工作委员会于2010 年1 月发布的《2009年度中国游戏产业报告》显示,2009年我国网络游戏市场实际销售收入达到256.2亿元,比2008年增长了39.4%,并带动电信、IT、出版等相关产业产值近550亿元。与此同时,盛大、第九城市等国内知名游