论文部分内容阅读
重复数据删除(Data Deduplication)无疑是近年来存储行业最受人关注的技术,甚至有分析师认为,重复数据删除是近十年来最重要的存储技术创新。
重复数据删除技术之所以能在短时间内蹿红,主要原因在于其诉求点非常清楚——消除传统备份技术衍生出的重复储存数据的问题,进而为企业节省成本,而这些诉求又正好符合现今IT行业大力提倡的节能环保理念。
然而,今天的企业面临的数据保护问题相当复杂,备份数据重复储存的问题仅仅是冰山一角。
重复数据删除在某些厂商的华丽包装下,似乎成了解决所有数据保护问题的万能药,导致用户对重复数据删除产品存在过高的期望,在对技术本身了解不够、欠缺全盘考虑的情况下便部署了重复数据删除方案,结果往往不如预期。
用户在选择具备重复数据删除技术的产品时,不妨参考以下几项建议。
不要陷入重复删除比的谜局
几乎所有厂商都会强调,自己的产品可以达到更高的重复数据删除比,有些厂商甚至宣称可以达到500∶1这样不可思议的重复数据删除比。事实上,重复数据删除比率取决于数据的类型和备份策略,与重复数据删除技术本身关联不大。举例来说,如果数据的类型为Office文件或电子邮件,由于数据结构本身的重复性较高,能被删除的部分自然就比较多;如果是已经压缩过的影音、图片等文件,重复数据删除的效果则相当有限。
采用全备份方式时的重复数据删除比远大于采用增量或差量备份时的重复数据删除比。因此,比较不同产品之间的重复数据删除比率是没有意义的,更不能以此来判别重复数据删除产品的优劣。
不能影响服务器性能
某些采用资源端重复数据删除技术的解决方案,必须在生产服务器上安装代理程序来执行重复数据删除,因此不可避免地给生产服务器造成了相当大的性能负担。任何改变传统的数据保护方式,都必须建立在不影响系统运行的前提下,换句话说,服务器的性能绝不能受到数据保护方案的影响。因此,目标端重复数据删除技术才是理想的选择。
以飞康最新推出的FDS为例,它只对备份到FDS内的数据进行分析比对,然后再删除重复数据,前端服务器不需要安装代理程序,所有运行负载也都集中在FDS上,重复数据删除工作对生产服务器的性能毫无影响。
在线处理不一定比后处理好
重复数据删除技术依据数据处理方式的不同,分成备份与重复数据删除同时执行的在线处理(In-line)以及备份完成后执行重复数据删除的后处理(Post Processing)两种。有些厂商宣称,在线处理才是最先进的技术,这有待商榷。
事实上,无论采用哪种数据处理方式,绝大多数重复数据删除技术都基于业界标准的哈希算法(仅有少数采用自主开发的专利技术),运行方式也都大同小异:追踪、核对数据区块,在新数据写入硬盘前先经过系统的扫描与核对,判定硬盘上是否存有相同的副本,如果有的话,这部分数据将只存入一个指向该副本地址的指针,不会重复储存,从而达到节省硬盘空间的目的。
在线处理与后处理方式的差异在于,在线处理运用了大量的内存作为数据写入硬盘前的缓存空间,后处理则是先将备份数据写入硬盘后,再进行分析比对,然后删除重复数据。
从表面看,在线处理的效率似乎比较高,但是有两个问题不容忽视。
数据处理速度慢 采用在线处理方式,备份资料在写入前,必须先暂时存在内存中,执行内容比对与删除演算等工作,而这些动作会消耗大量CPU资源,不可避免地降低备份速度。在这种情况下,某些虚拟磁带库产品的备份性能甚至比磁带机还差,这样很容易导致备份窗口不足,能在要求时限内完成备份的数据量也相对变少。
可靠性令人担心 采用在线处理方式,由于是在数据写入硬盘的同时进行比对,删除重复数据,保留文件指针,没有校验、核对的机制,也就是说,没有厂商敢保证经过重复数据删除后,恢复时的数据是100%正确无误的。万一数据处理的某个环节出现错误,系统内储存的备份数据只是一堆无法识别的代码,不能不让人担心其可靠性。
相比之下,后处理方式的重复数据删除技术就不存在降低性能和可靠性的问题。以飞康FDS为例,由于备份数据的传输过程不受重复数据删除运行程序的干扰,能充分发挥高速硬盘的I/O处理能力,如果搭配备份服务器的主机式备份(Hosted backup)功能,还能运用服务器内部的高速链路取代速度较慢的以太网,从而消除备份服务器到存储系统间的传输瓶颈,进一步提升备份的性能。在可靠性方面,FDS即将推出的一致性校验功能(Self integrity check),可在备份数据写入硬盘并执行重复数据删除后,与单一存储区块进行比对,如果发现有任何错误,系统会自动修复,确保所有处理过的备份资料都能正确恢复,系统的可靠性与数据安全性更有保障。
不应局限在单一应用
目前市场上具备重复数据删除功能的解决方案,在架构和技術上可能有不同,但应用范围几乎全都集中在数据备份领域。换言之,这些产品本身不是备份软件就是必须搭配备份软件才能使用的硬件设备。然而,企业内部存在重复数据的不仅是备份数据,散落在各个部门的文件服务器内的非结构化数据(其中以Office文件居多)经过多年时间也积累了相当多的重复数据。在企业不具备完善的数据分级存储与归档机制的情况下,管理员面对文件服务器数据量不断增长的问题,只能消极地以扩展硬盘空间的方式应对。换个角度想,如果文件服务器能够利用重复数据删除技术,理论上就可以有效地解决这个问题。可惜的是,大多数的重复数据删除解决方案受限于技术和性能,只能局限在备份应用领域。
飞康FDS突破了重复数据删除只能用在备份领域的局限,提供了基于管理策略的重复数据删除功能。这个功能允许管理员在设定FDS的网络共享文件夹时,根据文件大小、被读取或修改的频率来定义是否进行重复数据删除。举例来说,管理员可以设定,30天内未被用户存取过的文件在时间到达后自动执行重复数据删除。在大多数情况下,文件服务器内的数据被存取的频率会随着时间而递减,经常被用户使用的文件不会执行重复数据删除,因此可以快速存取、修改,其性能不受文件重组的影响。不常使用的文件可以通过重复数据删除被削减,从而减少占用的硬盘空间,这样便于用户存储更多的文件数据,可谓一举多得。
远程复制不可少
除了节省存储空间外,重复数据删除技术与远程复制技术相结合,可以解决通过网络执行远程备份时一再传送重复数据造成的带宽浪费的问题,进而达到广域网优化的效果。用户不需要投资昂贵的专线,就能建立两地之间的异地备份。对于许多有分公司、远程办公室或分支机构的企业来说,它们还能借此建立多网站远程集中备份,获得节省带宽和存储空间的双重效果。这也是重复数据删除技术吸引这么多厂商的重要因素。但是,并不是所有厂商都能提供足够成熟的技术。因此,大部分重复数据删除结合远程复制的方案仍存在局限性。某些重复数据删除方案本身并不具备远程复制技术,数据经过处理后必须利用其他软件或磁盘阵列的复制功能,才能将数据传送到灾备中心。在这种情况下,用户必须购买更多的设备才能实现异地备份。如果用户的多个远程站点需要进行集中备份,受到的限制会更多,项目实施的复杂程度与成本也会增加。
飞康FDS采用只有企业级虚拟磁带库才有的全局重复数据删除(Global Deduplication)技术,将重复数据删除与远程复制相结合,支持一对一、多对一的远程集中备份环境。举例来说,远程网站和数据中心的FDS通过比对单一存储区内有无相同数据,仅复制和传送单一数据,在20∶1的重复数据删除比率下,可以节省95%的网络带宽占用。在数据中心,用户可以采用外接不同厂商磁盘阵列的FDS网关设备,利用超大容量的单一存储区和高速硬盘的存取优势,彻底消除远程网站之间备份的重复数据,在充分发挥重复数据删除技术优势的同时,节省成本,提升性能。
重复数据删除技术之所以能在短时间内蹿红,主要原因在于其诉求点非常清楚——消除传统备份技术衍生出的重复储存数据的问题,进而为企业节省成本,而这些诉求又正好符合现今IT行业大力提倡的节能环保理念。
然而,今天的企业面临的数据保护问题相当复杂,备份数据重复储存的问题仅仅是冰山一角。
重复数据删除在某些厂商的华丽包装下,似乎成了解决所有数据保护问题的万能药,导致用户对重复数据删除产品存在过高的期望,在对技术本身了解不够、欠缺全盘考虑的情况下便部署了重复数据删除方案,结果往往不如预期。
用户在选择具备重复数据删除技术的产品时,不妨参考以下几项建议。
不要陷入重复删除比的谜局
几乎所有厂商都会强调,自己的产品可以达到更高的重复数据删除比,有些厂商甚至宣称可以达到500∶1这样不可思议的重复数据删除比。事实上,重复数据删除比率取决于数据的类型和备份策略,与重复数据删除技术本身关联不大。举例来说,如果数据的类型为Office文件或电子邮件,由于数据结构本身的重复性较高,能被删除的部分自然就比较多;如果是已经压缩过的影音、图片等文件,重复数据删除的效果则相当有限。
采用全备份方式时的重复数据删除比远大于采用增量或差量备份时的重复数据删除比。因此,比较不同产品之间的重复数据删除比率是没有意义的,更不能以此来判别重复数据删除产品的优劣。
不能影响服务器性能
某些采用资源端重复数据删除技术的解决方案,必须在生产服务器上安装代理程序来执行重复数据删除,因此不可避免地给生产服务器造成了相当大的性能负担。任何改变传统的数据保护方式,都必须建立在不影响系统运行的前提下,换句话说,服务器的性能绝不能受到数据保护方案的影响。因此,目标端重复数据删除技术才是理想的选择。
以飞康最新推出的FDS为例,它只对备份到FDS内的数据进行分析比对,然后再删除重复数据,前端服务器不需要安装代理程序,所有运行负载也都集中在FDS上,重复数据删除工作对生产服务器的性能毫无影响。
在线处理不一定比后处理好
重复数据删除技术依据数据处理方式的不同,分成备份与重复数据删除同时执行的在线处理(In-line)以及备份完成后执行重复数据删除的后处理(Post Processing)两种。有些厂商宣称,在线处理才是最先进的技术,这有待商榷。
事实上,无论采用哪种数据处理方式,绝大多数重复数据删除技术都基于业界标准的哈希算法(仅有少数采用自主开发的专利技术),运行方式也都大同小异:追踪、核对数据区块,在新数据写入硬盘前先经过系统的扫描与核对,判定硬盘上是否存有相同的副本,如果有的话,这部分数据将只存入一个指向该副本地址的指针,不会重复储存,从而达到节省硬盘空间的目的。
在线处理与后处理方式的差异在于,在线处理运用了大量的内存作为数据写入硬盘前的缓存空间,后处理则是先将备份数据写入硬盘后,再进行分析比对,然后删除重复数据。
从表面看,在线处理的效率似乎比较高,但是有两个问题不容忽视。
数据处理速度慢 采用在线处理方式,备份资料在写入前,必须先暂时存在内存中,执行内容比对与删除演算等工作,而这些动作会消耗大量CPU资源,不可避免地降低备份速度。在这种情况下,某些虚拟磁带库产品的备份性能甚至比磁带机还差,这样很容易导致备份窗口不足,能在要求时限内完成备份的数据量也相对变少。
可靠性令人担心 采用在线处理方式,由于是在数据写入硬盘的同时进行比对,删除重复数据,保留文件指针,没有校验、核对的机制,也就是说,没有厂商敢保证经过重复数据删除后,恢复时的数据是100%正确无误的。万一数据处理的某个环节出现错误,系统内储存的备份数据只是一堆无法识别的代码,不能不让人担心其可靠性。
相比之下,后处理方式的重复数据删除技术就不存在降低性能和可靠性的问题。以飞康FDS为例,由于备份数据的传输过程不受重复数据删除运行程序的干扰,能充分发挥高速硬盘的I/O处理能力,如果搭配备份服务器的主机式备份(Hosted backup)功能,还能运用服务器内部的高速链路取代速度较慢的以太网,从而消除备份服务器到存储系统间的传输瓶颈,进一步提升备份的性能。在可靠性方面,FDS即将推出的一致性校验功能(Self integrity check),可在备份数据写入硬盘并执行重复数据删除后,与单一存储区块进行比对,如果发现有任何错误,系统会自动修复,确保所有处理过的备份资料都能正确恢复,系统的可靠性与数据安全性更有保障。
不应局限在单一应用
目前市场上具备重复数据删除功能的解决方案,在架构和技術上可能有不同,但应用范围几乎全都集中在数据备份领域。换言之,这些产品本身不是备份软件就是必须搭配备份软件才能使用的硬件设备。然而,企业内部存在重复数据的不仅是备份数据,散落在各个部门的文件服务器内的非结构化数据(其中以Office文件居多)经过多年时间也积累了相当多的重复数据。在企业不具备完善的数据分级存储与归档机制的情况下,管理员面对文件服务器数据量不断增长的问题,只能消极地以扩展硬盘空间的方式应对。换个角度想,如果文件服务器能够利用重复数据删除技术,理论上就可以有效地解决这个问题。可惜的是,大多数的重复数据删除解决方案受限于技术和性能,只能局限在备份应用领域。
飞康FDS突破了重复数据删除只能用在备份领域的局限,提供了基于管理策略的重复数据删除功能。这个功能允许管理员在设定FDS的网络共享文件夹时,根据文件大小、被读取或修改的频率来定义是否进行重复数据删除。举例来说,管理员可以设定,30天内未被用户存取过的文件在时间到达后自动执行重复数据删除。在大多数情况下,文件服务器内的数据被存取的频率会随着时间而递减,经常被用户使用的文件不会执行重复数据删除,因此可以快速存取、修改,其性能不受文件重组的影响。不常使用的文件可以通过重复数据删除被削减,从而减少占用的硬盘空间,这样便于用户存储更多的文件数据,可谓一举多得。
远程复制不可少
除了节省存储空间外,重复数据删除技术与远程复制技术相结合,可以解决通过网络执行远程备份时一再传送重复数据造成的带宽浪费的问题,进而达到广域网优化的效果。用户不需要投资昂贵的专线,就能建立两地之间的异地备份。对于许多有分公司、远程办公室或分支机构的企业来说,它们还能借此建立多网站远程集中备份,获得节省带宽和存储空间的双重效果。这也是重复数据删除技术吸引这么多厂商的重要因素。但是,并不是所有厂商都能提供足够成熟的技术。因此,大部分重复数据删除结合远程复制的方案仍存在局限性。某些重复数据删除方案本身并不具备远程复制技术,数据经过处理后必须利用其他软件或磁盘阵列的复制功能,才能将数据传送到灾备中心。在这种情况下,用户必须购买更多的设备才能实现异地备份。如果用户的多个远程站点需要进行集中备份,受到的限制会更多,项目实施的复杂程度与成本也会增加。
飞康FDS采用只有企业级虚拟磁带库才有的全局重复数据删除(Global Deduplication)技术,将重复数据删除与远程复制相结合,支持一对一、多对一的远程集中备份环境。举例来说,远程网站和数据中心的FDS通过比对单一存储区内有无相同数据,仅复制和传送单一数据,在20∶1的重复数据删除比率下,可以节省95%的网络带宽占用。在数据中心,用户可以采用外接不同厂商磁盘阵列的FDS网关设备,利用超大容量的单一存储区和高速硬盘的存取优势,彻底消除远程网站之间备份的重复数据,在充分发挥重复数据删除技术优势的同时,节省成本,提升性能。