重复数据删除与压缩孰优孰劣?

来源 :计算机世界 | 被引量 : 0次 | 上传用户:doujiazhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在备份或归档时,对于数据缩减,通常会使用重复数据删除技术和数据压缩技术。但对于主存储数据的缩减和优化,这两项技术的优劣就不同了。
  容量优化长期以来是次级存储的事情:次级存储上主要是数量众多的重复数据(常常是磁盘到磁盘备份的产物)和要求不太高的I/O模式。应对这方面难题的解决方案很多,包括结合了诸多创新技术的方案,如文件单一实例、固定和可变长度的子文件重复数据删除、压缩及更多技术。这个领域的解决方案证明了它们有时能够把存储数据缩减到原来所占空间的1/20,或者缩减得更多。由于容量优化有着如此诱人的发展前景,类似解决方案的市场规模已超过20亿美元。
  对于为支持近乎失控的数据增长而焦头烂额的IT经理来说,这些技术无疑在其他方面(即次级存储以外的方面)也有用武之地。而最明显的莫过于所有那些数据的真正根源:主存储。但是对于将兴趣付诸实践的IT经理来说,尝试往往以失败告终。不像大多数次级存储环境,主存储对性能往往极其敏感,而且不包括数量众多的几乎相同的数据。如果运用重复数据删除技术,对于那些几乎相同的数据就能得到立竿见影的效果。
  
  删重VS. 压缩
  
  我们需要一系列独特的功能来优化存储数据在主存储上占用的空间。特别是,很难在不影响应用性能的情况下对主存储进行优化,无论是文件还是数据块。主存储中的随机I/O模式,加上生产应用对性能的严格要求,已经使得对主存储容量进行优化成为几乎不可能接受的挑战。
  就在不久前,还没有切实可行的方法来克服上述问题。由于现有的重复数据删除技术对存储性能、数据完整性及/或数据管理流程有影响,通常不尽如人意。幸好对用户们来说,如今出现了一类新的数据压缩解决方案,它们有望克服主存储优化(Primary Storage Optimization,PSO)的特定挑战。
  对照主存储优化的标准,让我们看看重复数据删除(删重)和压缩这两项主要竞争技术的相比较结果如何。
  重复数据删除技术可以找出冗余数据块,然后只保存一个副本,从而缩减数据集的大小。但尽管重复数据删除通常能为备份数据流提供12:1到20:1的压缩比,但在大多数主存储环境下,这个压缩比会跌到2:1。
  更重要的是,重复数据删除会导致性能下降,而这不符合主存储的要求。在主存储中,存储系统常常超量配置,就是为了获得性能的提高。尽管固态磁盘(SSD)等下一代技术能提高性能,且能减少磁盘的数量,但耗费内存、造成延迟的重复数据删除还没有为此做好准备。
  重复数据删除给如今的控制器带来了太长的周期和太大的开销,原因在于工作过程涉及诸多步骤,如缓存数据块、在内存中的B树或类似索引中跟踪引用、扩大和缩小模式匹配窗口、缓存和重写进入到磁盘上的数据流。这类开销(取代传统上的数据从控制器传输到磁盘),加上毫秒级的旋转磁盘延迟(SSD的延迟较短),明显影响了许多应用工作负载的性能,尤其是有大量活跃数据的工作负载。所以,适合运用重复数据删除的数据仍然很有限。重复数据删除的数据缩减也许好处很明显,高度冗余、以读操作为主的数据集增加额外延迟也在所不惜。一些用户发现,用户主目录和VMware或Hyper-V的启动映像就是这种情况,它们含有大量相互重叠、相对静态的数据。
  现在再来谈谈数据压缩方法,评估它们为主存储优化准备的情况。就在不久前,还无法在不影响性能或危及数据完整性的情况下实时压缩数据。但是Storwize等厂商提供的新技术已改变了态势,让压缩不但切实可行,还成为适合主存储优化(PSO)的方案。
  压缩解决方案各不相同,如今最先进的解决方案是指网络内(带内)设备,除了内置或控制器功能外,它们还能压缩数据,并能针对分布在多个系统上的数据集进行压缩。这种带内解决方案能够提供全速存储性能,又不给现有的控制器带来负担(实际上它们还能优化控制器的交互),同时运用最先进的压缩算法。
  实时压缩又是如何进行的呢?这种方法通常使用介于NAS存储阵列(运行NFS或CIFS)和数据用户之间的硬件设备。使用Lempel-Ziv(LZ)等标准压缩技术,以压缩格式写入的每个文件完全保留了原始数据的完整性,而访问或重新创建原始文件所需的全部信息都包含在刚刚压缩的文件里面。这种“无损”压缩方法确保了数据完整性不受到危及,这对于遵循《健康保险可携性及责任性法案》(HIPAA)和《萨班斯-奥克斯利法案》等重要的行业法规来说至关重要。而相比之下,重复数据删除技术用指向其他数据的指针取代文件级和子文件级的数据模式,从理论上来说,这些指针可能会出现引用错误。
  带内解决方案在整条数据路径提供了端到端验证机制,可以提供更好的完整性。由于保留了数据完整性以及在硬件设备里操作,这种压缩满足了PSO标准中的第三和第四个标准(见链接一)。
  但更重要的是,实时嵌入式压缩把主存储容量的需求平均减少了50%到90%,有效压缩比随存储数据的类型不同而有变化。比如说,数据库和文本文件通常能获得超过80%的压缩比;而PDF和其他格式文档的压缩比通常只有50%。
  压缩还可以改善底层存储系统的整体性能,其累加效应完全抵消了极小的硬件设备开销。这种解决方案在数据最初写入时压缩数据,因而形成的磁盘I/O比较少,还减轻了磁盘的工作负载。数据压缩后传送到存储阵列,增加了存储缓存的有效容量,让阵列可以满足来自读写缓存的更多请求。由于读写在缓存里面而不是在磁盘上得到实现,所以使读写速度加快了。为了进一步加快读取速度,带内设备可通过设备缓存来加大阵列缓存。
  目前在这个市场中提供解决方案的主要厂商是Storwize。在IBM与Storwize共同进行的一系列性能测试中,这两家公司设法比较了压缩给各种应用工作负载在吞吐量和响应时间方面带来的影响。在TPC-C基准测试中,与不使用压缩的基准情况相比,压缩设备大大缩短了响应时间,提高了吞吐量,还降低了NAS系统上的CPU和磁盘占用率。结论是,这种压缩解决方案起码能保持应用性能;在许多情况下,还能提升应用性能。
  此外,压缩的好处还会造福于存储数据的整个生命周期,而不仅仅造福于主存储。它不像重复数据删除技术,当数据访问时会重新膨胀(re-inflated)。压缩后的数据仍可以保持压缩状态,只要压缩设备仍在带内,那么数据访问时,不需要“重新膨胀”或解压缩。由于数据在存储层之间转移时,压缩机制仍在原来位置,压缩后数据甚至可以优化存储,避开法规遵从等棘手问题。此外,压缩后的数据转移到近线或离线存储库后,仍可以借助其他厂商的重复数据删除算法来加以优化。
  
  给存储经理的建议
  
  如今主存储环境中的数据存储区(data store)在迅速变大,加上维护或提升性能服务级别的要求,优化主存储显得必不可少。这对存储经理和公司的利润来说都事关重大。存储经理再也不能通过投入更多资金和运营资源来应对挑战的办法,以应对存储容量的疯狂增长和更严格服务级别协议(SLA)所带来的双重挑战。此外,容量与性能之争现在上升到了新的水平——SSD技术蓄势待发,等待合适的存储架构和价位,从而变成主流。但就算SSD成为主流,其较小的容量也会加剧存储经理面临的容量问题。添加SSD很可能变成为了提升性能而超量配置容量,这是一种过时的做法,会给存储管理员带来新的压力,必须优化主存储容量。
  一些厂商的重复数据删除技术处理近线数据和备份数据时效果非常好,比如EMC(Data Domain)、Exagrid、飞康、NetApp、昆腾、Sepaton及其他厂商。对于拥有先进的重复数据删除和优化架构的一些厂商来说,比如GreenBytes、Ocarina和Permabit,重复数据删除增强了其优化主存储库中数据的功能。但是对主存储的关键任务生产工作负载来说,重复数据删除还不是首选的解决方案。
  带内压缩是重复数据删除之外的一种切实可行的选择。我们建议用户考虑其主存储基础设施中磁盘上数据的成本影响,考虑使用以实时嵌入的方式压缩数据,然后传送到存储阵列的外部PSO设备。此外,为了避免影响数据完整性和法规遵从,IT经理应该只考虑提供无损压缩的解决方案。
  如果用户选择了正确的数据压缩解决方案,势必会得到诸多好处,包括提高存储效率,在整个数据生命周期内减少容量、降低成本。在更大的背景下,如果容量优化策略结合针对主存储的数据压缩与针对次级存储的重复数据删除,有望让企业能够从存储方面投入的资本支出和运营支出得到最大的回报。
  
  链 接 一
  主存储优化的标准
  主存储优化(Primary Storage Optimization,PSO)解决方案必须满足哪些具体标准才能符合PSO的要求?
  尽管主存储是存储层次结构中运用优化的合理对象,但它给厂商们出了难题。我们认为,数据缩减技术必须满足下列标准,才可以认为能够在企业进行PSO:
  1. 能够可靠、一贯地将主存储容量需求减少50%或更多,具体取决于数据类型;
  2. 不会导致主存储性能降级,表现为I/O或延迟,哪怕是I/O完全顺序或完全随机的数据流;
  3. 完全保留原始数据集;
  4. 完全透明,不需要更改现有的IT基础设施或流程。
  
  链 接 二
  实时压缩的好处
  作为一项帮助实现PSO的技术,实时压缩带来了一些诱人的好处:
  
其他文献
“数一数,你家里有多少瓶子?”刚见到乐善机械实业有限公司董事长郭锡南,他就向记者抛出了这样的问题。“单说女士的化妆用品,没有7个8个的,怎么对得起自己的脸?”郭锡南幽默调侃说,在我们的生活中,瓶子的需求量可真是不小。    在乐善机械的会议室橱窗里,摆满了各种形状的瓶子展品,“乐善”牌数控塑料挤出吹瓶机已被许多上市公司、500强企业大批选用。如乐百氏、蒙牛、中石化、联合利华集团等。  位于广东顺德
冠军档案  成立日期:1998年  公司定位:协同管理软件  营业收入:5000万元  员工人数:300多人  优势领域:政府、大型企业的协同管理    “这个新发型是自己理的,省去了理发的钱,最重要的是省去了与理发师沟通的麻烦。”在万户网络的2011年战略与合作伙伴峰会上,万户网络总裁钱贵昱的新发型吸引了与会人员的注意。  “我生性好奇,不仅喜欢琢磨商业模式之间的相通性,并且还喜欢主动尝试。”面
处理器被誉为20世纪最重要的发明之一,对全球数十亿人产生了深远影响。在过去的40年发生的变革中,都有它的身影,它已经成为人们日常生活中不可分割的一部分。未来,它还将为所有物体提供更强的连接能力。  在IDF上,英特尔中国区总裁杨叙做主题演讲时的一则短片中,屏幕上打出了一行字——“好戏才刚刚上演”。过去30年,处理器的进步使不可能成为可能,使生活更加智能。未来30年,以处理器为核心的IT对经济发展和
日前,长虹佳华成功签约新加坡创新科技有限公司和日本铁三角公司,以国内一级总代的身份代理创新公司的音箱产品和铁三角公司的耳机系列。长虹集团董事、长虹佳华董事总裁祝剑秋在接受记者采访时表示,本次成功签约数字娱乐产品厂商,是长虹佳华扩大海量分销业务产品阵容的脚步之一,同时,也是长虹佳华结合当下IT产品消费需求,适时调整产品布局的体现。  据介绍,新加坡创新科技有限公司是生产用于个人电脑和网络方面的数字娱
在整合了智能交通、医疗这两大核心业务后,方正国际能否在强敌林立的市场里进一步提升自己的市场份额?    日前,方正国际软件有限公司(简称方正国际)对外表示,从2011年4月起,正式将旗下方正众邦、方正奥德两家公司的全体员工、全部资产及相关资质和知识产权等转入北京方正国际,被整合公司的原有业务成为方正国际的事业部。  早在2011年年初,方正国际已经整合了方正电子政务公司。至此,方正国际IT服务全产
戴尔(DELL)电脑、百事可乐、燕京啤酒、格力电器、富士施乐、青岛海信这些IT、家电、快速消费品企业的共同特点是拥有大量的零售终端,需要对其进行高水平、低成本的信息化管理。最近一年中,它们相继采用了中国电信提供的“销售管家”服务。  中国电信商务领航旗下的“销售管家”移动行业应用,是针对家电、IT、电子消费品、食品饮料快速消费品等行业的产品销售服务网点业务和管理特点,为生产型企业及产品代理经销商提
当前经济环境下,对于那些希望运营良好并有所突破的企业而言,如果能从企业内部、外部的海量信息中找到对自身真正有价值的信息,将是事半功倍的事情。    自IBM2009年初提出“智慧的地球”理念后,这个概念就以其“物联化、互联化、智能化”的深刻洞察,以及对于信息化技术和社会发展趋势的精准把握,得到了世界各国有识之士的广泛认同。  此后一年,IBM已经在全球50多个国家开展了智慧地球的相关业务,产生了1
可多生活用品公司总经理王可,1998年作为个体经营户在北京东四开了第一家小饰品店,当时的想法是好玩,也不为挣钱。“然而到了2008年,中国人的生活进入小康,开始关注生活质量,个人生活用品市场进入了一个小的爆发期。”王可介绍。  在这种环境下,可多在两年多的时间里,分别在北京的南锣鼓巷、现代城等地,开设了6家自有品牌连锁店,自己设计的生活用品品牌以及代理的商品总类已经达到了3500种。    集中管
本报综合消息 惠普上周三就芯片纠纷起诉甲骨文,凸显出这对曾经的盟友之间的分歧日益加大。在发起诉讼前,惠普曾经致函甲骨文,要求该公司放弃之前的决定,继续支持英特尔安腾处理器。  惠普首席发言人比尔·沃尔说:“甲骨文装聋作哑,我们对此很失望。”甲骨文则在声明中表示,惠普对甲骨文违反合同的指控“不实”,这一诉讼“极其恶毒,而且没有依据”。  本案已经被提交给加州的一家法院,从而进一步凸显出双方的敌对状态
据工信部网站的消息,2011年3月,全国家电下乡产品销售1471.5万台,实现销售额344.8亿元,同比分别增长135%和179%。今年第一季度,全国家电下乡产品累计销售3626万台,实现销售额857.8亿元。截至2011年3月底,全国家电下乡产品累计销售1.5亿台,实现销售额3273.5亿元,累计发放补贴额375.6亿元。  从产品品类来看,空调产品3月份实现销售额36.8亿元,同比增长398%