选择重复数据删除应注意的五个问题

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:skyedge228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  重复数据删除(Data Deduplication)无疑是近年来存储行业最受人关注的技术,甚至有分析师认为,重复数据删除是近十年来最重要的存储技术创新。
  重复数据删除技术之所以能在短时间内蹿红,主要原因在于其诉求点非常清楚——消除传统备份技术衍生出的重复储存数据的问题,进而为企业节省成本,而这些诉求又正好符合现今IT行业大力提倡的节能环保理念。
  然而,今天的企业面临的数据保护问题相当复杂,备份数据重复储存的问题仅仅是冰山一角。
  重复数据删除在某些厂商的华丽包装下,似乎成了解决所有数据保护问题的万能药,导致用户对重复数据删除产品存在过高的期望,在对技术本身了解不够、欠缺全盘考虑的情况下便部署了重复数据删除方案,结果往往不如预期。
  用户在选择具备重复数据删除技术的产品时,不妨参考以下几项建议。
  
  不要陷入重复删除比的谜局
  
  几乎所有厂商都会强调,自己的产品可以达到更高的重复数据删除比,有些厂商甚至宣称可以达到500∶1这样不可思议的重复数据删除比。事实上,重复数据删除比率取决于数据的类型和备份策略,与重复数据删除技术本身关联不大。举例来说,如果数据的类型为Office文件或电子邮件,由于数据结构本身的重复性较高,能被删除的部分自然就比较多;如果是已经压缩过的影音、图片等文件,重复数据删除的效果则相当有限。
  采用全备份方式时的重复数据删除比远大于采用增量或差量备份时的重复数据删除比。因此,比较不同产品之间的重复数据删除比率是没有意义的,更不能以此来判别重复数据删除产品的优劣。
  
  不能影响服务器性能
  
  某些采用资源端重复数据删除技术的解决方案,必须在生产服务器上安装代理程序来执行重复数据删除,因此不可避免地给生产服务器造成了相当大的性能负担。任何改变传统的数据保护方式,都必须建立在不影响系统运行的前提下,换句话说,服务器的性能绝不能受到数据保护方案的影响。因此,目标端重复数据删除技术才是理想的选择。
  以飞康最新推出的FDS为例,它只对备份到FDS内的数据进行分析比对,然后再删除重复数据,前端服务器不需要安装代理程序,所有运行负载也都集中在FDS上,重复数据删除工作对生产服务器的性能毫无影响。
  
  在线处理不一定比后处理好
  
  重复数据删除技术依据数据处理方式的不同,分成备份与重复数据删除同时执行的在线处理(In-line)以及备份完成后执行重复数据删除的后处理(Post Processing)两种。有些厂商宣称,在线处理才是最先进的技术,这有待商榷。
  事实上,无论采用哪种数据处理方式,绝大多数重复数据删除技术都基于业界标准的哈希算法(仅有少数采用自主开发的专利技术),运行方式也都大同小异:追踪、核对数据区块,在新数据写入硬盘前先经过系统的扫描与核对,判定硬盘上是否存有相同的副本,如果有的话,这部分数据将只存入一个指向该副本地址的指针,不会重复储存,从而达到节省硬盘空间的目的。
  在线处理与后处理方式的差异在于,在线处理运用了大量的内存作为数据写入硬盘前的缓存空间,后处理则是先将备份数据写入硬盘后,再进行分析比对,然后删除重复数据。
  从表面看,在线处理的效率似乎比较高,但是有两个问题不容忽视。
  数据处理速度慢 采用在线处理方式,备份资料在写入前,必须先暂时存在内存中,执行内容比对与删除演算等工作,而这些动作会消耗大量CPU资源,不可避免地降低备份速度。在这种情况下,某些虚拟磁带库产品的备份性能甚至比磁带机还差,这样很容易导致备份窗口不足,能在要求时限内完成备份的数据量也相对变少。
  可靠性令人担心 采用在线处理方式,由于是在数据写入硬盘的同时进行比对,删除重复数据,保留文件指针,没有校验、核对的机制,也就是说,没有厂商敢保证经过重复数据删除后,恢复时的数据是100%正确无误的。万一数据处理的某个环节出现错误,系统内储存的备份数据只是一堆无法识别的代码,不能不让人担心其可靠性。
  相比之下,后处理方式的重复数据删除技术就不存在降低性能和可靠性的问题。以飞康FDS为例,由于备份数据的传输过程不受重复数据删除运行程序的干扰,能充分发挥高速硬盘的I/O处理能力,如果搭配备份服务器的主机式备份(Hosted backup)功能,还能运用服务器内部的高速链路取代速度较慢的以太网,从而消除备份服务器到存储系统间的传输瓶颈,进一步提升备份的性能。在可靠性方面,FDS即将推出的一致性校验功能(Self integrity check),可在备份数据写入硬盘并执行重复数据删除后,与单一存储区块进行比对,如果发现有任何错误,系统会自动修复,确保所有处理过的备份资料都能正确恢复,系统的可靠性与数据安全性更有保障。
  
  不应局限在单一应用
  
  目前市场上具备重复数据删除功能的解决方案,在架构和技術上可能有不同,但应用范围几乎全都集中在数据备份领域。换言之,这些产品本身不是备份软件就是必须搭配备份软件才能使用的硬件设备。然而,企业内部存在重复数据的不仅是备份数据,散落在各个部门的文件服务器内的非结构化数据(其中以Office文件居多)经过多年时间也积累了相当多的重复数据。在企业不具备完善的数据分级存储与归档机制的情况下,管理员面对文件服务器数据量不断增长的问题,只能消极地以扩展硬盘空间的方式应对。换个角度想,如果文件服务器能够利用重复数据删除技术,理论上就可以有效地解决这个问题。可惜的是,大多数的重复数据删除解决方案受限于技术和性能,只能局限在备份应用领域。
  飞康FDS突破了重复数据删除只能用在备份领域的局限,提供了基于管理策略的重复数据删除功能。这个功能允许管理员在设定FDS的网络共享文件夹时,根据文件大小、被读取或修改的频率来定义是否进行重复数据删除。举例来说,管理员可以设定,30天内未被用户存取过的文件在时间到达后自动执行重复数据删除。在大多数情况下,文件服务器内的数据被存取的频率会随着时间而递减,经常被用户使用的文件不会执行重复数据删除,因此可以快速存取、修改,其性能不受文件重组的影响。不常使用的文件可以通过重复数据删除被削减,从而减少占用的硬盘空间,这样便于用户存储更多的文件数据,可谓一举多得。
  
  远程复制不可少
  
  除了节省存储空间外,重复数据删除技术与远程复制技术相结合,可以解决通过网络执行远程备份时一再传送重复数据造成的带宽浪费的问题,进而达到广域网优化的效果。用户不需要投资昂贵的专线,就能建立两地之间的异地备份。对于许多有分公司、远程办公室或分支机构的企业来说,它们还能借此建立多网站远程集中备份,获得节省带宽和存储空间的双重效果。这也是重复数据删除技术吸引这么多厂商的重要因素。但是,并不是所有厂商都能提供足够成熟的技术。因此,大部分重复数据删除结合远程复制的方案仍存在局限性。某些重复数据删除方案本身并不具备远程复制技术,数据经过处理后必须利用其他软件或磁盘阵列的复制功能,才能将数据传送到灾备中心。在这种情况下,用户必须购买更多的设备才能实现异地备份。如果用户的多个远程站点需要进行集中备份,受到的限制会更多,项目实施的复杂程度与成本也会增加。
  飞康FDS采用只有企业级虚拟磁带库才有的全局重复数据删除(Global Deduplication)技术,将重复数据删除与远程复制相结合,支持一对一、多对一的远程集中备份环境。举例来说,远程网站和数据中心的FDS通过比对单一存储区内有无相同数据,仅复制和传送单一数据,在20∶1的重复数据删除比率下,可以节省95%的网络带宽占用。在数据中心,用户可以采用外接不同厂商磁盘阵列的FDS网关设备,利用超大容量的单一存储区和高速硬盘的存取优势,彻底消除远程网站之间备份的重复数据,在充分发挥重复数据删除技术优势的同时,节省成本,提升性能。
其他文献
为追求诚信而不诚信,这似乎是个悖论。然而,这正是部分淘宝网炒信用买家正在做的。因为买家看重诚信评价,所以卖家宁可花钱“买诚信”。“刷钻”和删差评为主营业务的“诚信”利益链已然形成。在金钱交易背后,淘宝网炒信用商家是如何借助炒信用者的力量“追求诚信”呢?  “哪怕给你换货,也别给我差评啊!”记者的一位朋友刚因在淘宝网上购买的货品与卖家描述相去甚远给了差评,卖方的电话就追来了。经不住恳求,好心的买家答
虽然LED背光早就备受关注,但是让大部分用户用上LED显示设备的日子还很遥远。DisplaySearch今年7月30日发布的调查数据表明,虽然近期LED背光市场成长快速,不过,LED背光要成为市场主流规格(市场占有率超过50%)可能要等到2015年。  虽然大多数显示器厂商都还没有将重心转到LED背光产品上来,但是也都有相应的产品布局。近日LG发布了多款LED背光产品,已经开始将LED背光产品作为
2008年2月,江苏省无锡市联手IBM创建世界第一个商业云计算中心;2009年8月,广东省佛山市南开科技局与红帽合作,创立云计算中心为汽车、家具和陶瓷等行业企业服务;2009年9月,山东省东营市政府与IBM一起筹建黄河三角洲云计算中心;2009年10月,北京市计算中心搭建 的“北京云”即将上线。由政府主导的云计算中心如雨后春笋般出现。  作为一种IT运维服务模式,云计算仍属于新兴事物,在安全性、旧
在微软Vista操作系统的首发日益临近的时刻,我们不禁要问自己,Vista之后,下一个又会是什么呢?又或者,Vista就是一个终结呢? 笔者认为,从很多方面來看,在未来很长时间之内,不会再有下一个了。  首先,很有可能微软已经黔驴技穷了,而微软从苹果那里也没有可以借用的东西了。如果微软还想继续提升自己的操作系统的话,惟一的希望就是开发一种能够综合控制多核CPU的操作系统。换句话说,微软需要研发一种
互联网时代即将进入下一个十年,网上购物体验、虚拟社区交友,甚至不出家门游遍世界,这些都从空中楼阁般的理想变成了触手可及的现实。然而,凡事有一利必有一弊,网络泄密事件及信息安全问题逐渐浮出水面,引发了人们对于信息安全的诸多思考。如今,自主原创、中国信息安全漏洞库、安全应急响应服务等关键词纷纷从后台走到了公众面前,让信息安全保障这个略显模糊的字眼逐渐清晰了起来。    自主原创    随着中国信息安全
“伤寒”是一种传染性极强的疾病,有接触就有可能感染。Web应用系统由于采用标准的协议,如果Web服务器被挂马,当访问者访问服务器时就如同接触到了伤寒病患者一样会被感染并且自身的信息会被窃取,数据会被破坏。    参加活动遭遇木马    经常上网的朋友会发现,有时候有些链接点击进去后,防病毒软件会报警,提示有病毒/木马存在。某银行科技处处长霍女士,正在为这样的一起客户投诉头疼不已:某网银用户收到一封
曾经,CPU的主频是人们衡量PC性能的唯一参数。不过,从奔腾4时代开始,人们发现,CPU主频并不能决定一切。时至今日,一台PC的性能受到CPU架构、GPU型号、芯片组的总线吞吐能力等很多因素制约,CPU主频只是其中的一个组成部分。例如,3D游戏更需要好的GPU,而高清影音播放则需要不用太好但要带有硬解码能力的GPU。不同的应用的不同需要使得人们选择PC时更加迷惑。  9月中,AMD想出了一种办法让
上海天玑科技股份有限公司(简称天玑科技)是一家以服务中国客户为己任,致力于提供企业级IT基础设施服务和整体解决方案的专业第三方IT服务商。核心业务包括:IT基础设施支持与维护服务、IT基础设施专业服务和IT基础设施管理外包服务。  公司总部设在上海,已在北京、广州、杭州、南京、武汉、合肥、成都、济南、沈阳、苏州等地开设了20多家分公司和支持服务办事处,为全国范围的政企用户提供优质高效的IT服务。凭
近几年,从国内的网络运维产品和技术的发展趋势来看,网络管理软件与业务结合的趋势已经越来越明显。上海北塔软件公司副总裁李汉忠认为,IT管理部门需要改变立场,应从“站在支持与服务的角度看待业务”转变为“站在业务的角度看待支持与服务”,把业务的支撑能力和管理实效作为评价IT系统效用和IT部门工作的首要指标。  北塔BTIM系统在管理功能及范围上实现全面管理,使得网管软件的管理对象可以覆盖各类设备管理、机
VSCM可视化供应链管理平台是一个对包括订货、销售、库存管理、运输调度、资源管理、客户服务等方面进行综合一体化管理的集成方案,是信息驱动供应链的成熟管理平台。  该管理平台采用了SinoServices独创的基于J2EE的BSS三层体系架构Athene,它基于SOA的面向服务的设计思路,采用MVC设计模式的业务服务组件架构而成,具有极高的稳定性、安全性、可扩展性、可伸缩性和可维护性。  VSCM可