论文部分内容阅读
数据压缩和重复数据删除技术对于存储业界都已经不陌生了,但我们通常都是在备份和归档时应用它们。那么,在业务繁忙的主存储(在线存储)系统中能否将它们派上用场,以减少主存储的容量需求呢?
尽管主存储数据缩减技术通常被认为用于备份,但这项技术存在已颇有一段时日了。自上世纪90年代中期以来,已经有操作系统和操作系统的附加实用工具可以在主存储设备上实时压缩或后台压缩数据了。但由于近几年磁盘价格稳步下跌,主存储数据缩减基本上沦为了摆设。不过近来,人们重新对节省空间的技术产生了兴趣,许多企业再次考虑为主数据采用数据缩减技术。
什么因素让人们重新有了兴趣?可供数据中心经理们考虑的一些方案又有哪些?
主存储数据缩减技术东山再起,在很大程度上取决于两个条件:文件保留需求的增加,以及廉价存储可用性的降低。
现在用户对存储容量的需求有增无减,但存储设备的扩充总会达到极限。用户创建的文件数量越来越多,每个文件也越来越庞大,而且法律上对文件的保留有了更多的要求。尽管几年前存储容量的成本还相对较低,但在过去的一年里,许多数据中心的管理人员发现,一味地增加存储容量已不再是应对数据增长的成本较低的解决方案。因为除了管理多个存储系统的成本外,存储对电力、冷却和场地的影响也成为重要的因素,必须列入存储所有这些数据的总成本中。另外,严峻的经济形势和存储预算的减少使情况更加严峻,迫使存储经理们更充分地利用存储容量资源。
数据缩减技术正是帮助他们实现这个目标的首要工具。
如果IT经理扪心自问,就明白主存储数据缩减技术其实治标不治本。在理想的情况下,主存储中的数据有一大部分应该删除或转移到次级存储设备上。可是,数据中心的实际情况并不尽如人意。存储常常作为一项服务配置给用户,因而,用户不希望自己的数据被转移,更不希望被删除。诸如此类的任何操作对他们来说必须是透明的。由此看来,最容易被接受的办法就是从同样大小的存储空间中获取更多的容量,而又不用转移用户数据。因此,数据缩减技术成为首选的技术,它所带来的变化有限,其中大多数优化都不需要用户操心。
优化技术
考虑主存储数据缩减时,两项优化技术首当其冲:数据压缩和重复数据删除。
尽管重复数据删除技术常在媒体上抛头露面,但数据压缩在主存储领域也许有更大的价值。这是因为重复数据删除需要有冗余的数据才能发挥作用,这也是为什么数据备份中应用重复数据删除技术,能使资金的投入有很好的回报,因为那些每周进行的完全备份几乎相同。而主存储的冗余性与备份数据不一样,至少应该不一样,虚拟机映像可能除外。因此,重复数据删除处理主存储数据的效率通常只有处理备份数据效率的1/3。
另一方面,数据压缩技术适用于几乎各种数据。虽然就处理高度冗余的数据而言,数据压缩不如重复数据删除来得有效,但主存储上的大部分数据可以压缩。另外,还可以针对数据类型对数据压缩进行微调,或利用特殊的压缩设备来缩减某些数据集。当然,其代价是要耗费处理器资源。
在理想情况下,数据压缩和重复数据删除应该结合使用,以便最大限度地回收利用主存储容量。
何处进行数据缩减?
需要考虑的另一个问题是:在何处进行容量优化,以及谁来处理优化?
如今,数据缩减最常出现在文件服务系统上,比如网络附加存储(NAS)或文件服务器。而要不要缩减数据,通常取决于存储硬件提供商,或文件系统,或通过第三方以附件形式来提供的设备。以NAS硬件为例,处理数据缩减任务的通常是文件系统本身。也有一些厂商提供独立的文件系统或NAS软件,它们可以安装到现有硬件上,以提供数据缩减机制。
显然,如果目前使用的NAS或文件系统有这项功能的话,采用文件系统的方法只适用于数据中心。这也意味着,只有该厂商的NAS存储硬件设备得到支持。如果环境中有诸多厂商的产品,或者厂商目前在其系统中不提供数据优化服务,那么用户需要借助第三方独立软件开发商(ISV)来提供这项功能。除了这类厂商常常提供的专门化优势外,这么做有时会带来其他优点,比如更大的灵活性、更通用的优化方法,以及能够在不同厂商的平台之间转移数据。从产品开发的角度来看,用户只需关注数据缩减,没必要维护整个文件系统。
迄今为止,基于块的系统上还没有太多的优化。尽管装载到传统磁盘上的文件系统也许能提供这项功能,但大多数存储阵列硬件还无法处理这项任务。不过,这在不久的将来可能会成为一个选项。随着厂商们开始推出有望在存储层之间转移数据块的自动化分层策略,不难想像,它们也能优化这些数据。
据研究调查显示,多达85%的主存储数据不再被经常访问。这种情况至今持续了多年,由此催生了诸多技术方案,比如层次存储管理(HSM)、数据归档以及现在众所周知的信息生命周期管理(ILM)。
尽管上述技术方案各有优点,值得探究,但现实情况是,许多数据中心需要迅速解决存储容量问题,没有时间或人员来实施完整的数据管理策略。因此,实际环境下的主存储通常保存了各种类别的数据:包括极其活跃的( extremely active)数据、近活跃的(near active)数据和不活跃(inactive)的数据(即陈旧的数据)。幸运的是,所有这些数据都可以得到优化。
对于主存储中多种类别的数据来说,每项优化策略对存储生态系统都会带来各自的独特影响。系统在最初需要做出的决定之一就是应该何时优化数据,是该在数据访问时实时优化,还是在数据变得不常访问后优化?
有几款解决方案可提供实时数据压缩,它们介于存储设备及访问点之间。在大多数情况下,这些系统不会给性能带来负面影响。标准的、不能识别内容的压缩是一种比较有效的算法,并不影响性能。另外,繁重的压缩工作经常会交给独立式设备去处理,使进出存储设备的数据已经经过了缩减,这就减轻了存储系统的负担。
目前甚至还有这样的实时重复数据删除解决方案:数据在存储时与其他数据进行比较。尽管这种系统对性能会有一定影响——影响的大小取决于工作负载,但关系不大。针对主存储的实时重复数据删除还没有得到广泛接受,运用时要慎重。不管怎样,存储经理必须准备好解决实时优化影响存储性能方面的问题。
实施数据优化的一种更常见的方法是,数据在闲置一段时间后进行优化。即使“不活跃的”这段时间只有短短几天,但这些数据被再次访问的可能性通常也很小。
作为后台进程的一部分来优化数据,让非常活跃的数据可以保持原来形状,不用担心数据优化会影响非常活跃的文件或数据库的存储性能。在维护期间,可以检查文件系统上的未优化数据,看看它现在是不是适合优化。如果适合,随后它就将被压缩及/或重复数据删除处理。如果不适合(意味着数据仍在活跃范围内),它能继续以原来形状来存储。
有些系统能够区分被访问的数据和被优化的数据,并能提供数据。这意味着经过优化的数据能够读取。在大多数情况下,当数据只是被访问或被读取时,数据缩减给性能带来的影响非常小;当数据首次需要优化时,其工作负载则比较大。一旦优化作为次级过程来完成,又不针对所有数据来优化,那么,的确能够优化大部分数据,并且消除性能影响方面的后顾之忧。
归档替代方案
要是不提到数据管理问题,那么对数据缩减方面的任何讨论都将是不全面的。缩减主存储空间的缺点是,尽管需要管理的物理组件相同,但典型系统上的数据量在继续增加。可以这么认为:优化使这种情况变得更糟,因为实际容量更大或物理设备更多后,管理人员再也“看不到”问题。此外,主存储数据缩减获得的优点常常仅限于主存储层。把这些数据转移到其他存储层或数据保护流程后,常常需要“重新膨胀”(re-inflated)成原来大小,然后等进入到次级存储位置时“重新优化”。尽管数据缩减技术厂商正在竭力解决这个问题,但如今问题依然存在。
解决办法就是,不要把数据缩减当做“惟一方案”,而是当做总体计划中的一部分,总体计划应包括数据归档。归档的目的是把这些数据从主存储通道迁移出去,让这些数据远离数据保护流程,但又能做到需要时易于访问。
归档系统也有类似的主存储数据缩减技术,但同时添加了充分利用密度更高、成本更低的驱动器,并可能关闭这些驱动器的电源的技术。这比单使用数据缩减技术能更进一步推迟对额外存储容量的购置。
主存储数据缩减带来了实实在在的投资回报。实施该技术后,在大多数情况下,至少会“多出”50%的存储容量。只要本来就有购买额外存储容量的想法,这种解决方案应该会很快收回成本。这是开始实行影响更深远的数据管理策略的一个好办法。
链接
数据类型与数据缩减
有些数据压缩系统,特别是那些将数据缩减处理作为次级过程的系统,可以用更多的时间来了解正在优化的数据类型,特别是压缩可以进行微调的数据类型。有一些特别的压缩算法适用于那些标准压缩引擎不能很好应对的众多数据类型。典型例子包括音频、视频和图像文件。
图像是缩减起来特别困难的数据类型。图像对存储的需求日益增加,不只是照片共享网站,像大多数企业存储的文档图像、员工照片和施工现场的照片等。如果有更多的时间,一些优化解决方案甚至能够在可视化数据类型方面更进一步,从而缩减图像文件的大小。这就是通常所谓的“有损”(lossy)数据缩减技术,因为一部分图像质量丢失了。缩减照片的分辨率时就会出现这种情况;分辨率越低,照片在磁盘上占用的空间就越小。尽管这听上去不大称心如意,但这类系统有些能让图像看上去并没有损失,这意味着在我们的肉眼看来,图像在压缩前后看上去是一样的。随着企业中的图像库不断变得庞大,这些方法也会变得越来越重要。
尽管主存储数据缩减技术通常被认为用于备份,但这项技术存在已颇有一段时日了。自上世纪90年代中期以来,已经有操作系统和操作系统的附加实用工具可以在主存储设备上实时压缩或后台压缩数据了。但由于近几年磁盘价格稳步下跌,主存储数据缩减基本上沦为了摆设。不过近来,人们重新对节省空间的技术产生了兴趣,许多企业再次考虑为主数据采用数据缩减技术。
什么因素让人们重新有了兴趣?可供数据中心经理们考虑的一些方案又有哪些?
主存储数据缩减技术东山再起,在很大程度上取决于两个条件:文件保留需求的增加,以及廉价存储可用性的降低。
现在用户对存储容量的需求有增无减,但存储设备的扩充总会达到极限。用户创建的文件数量越来越多,每个文件也越来越庞大,而且法律上对文件的保留有了更多的要求。尽管几年前存储容量的成本还相对较低,但在过去的一年里,许多数据中心的管理人员发现,一味地增加存储容量已不再是应对数据增长的成本较低的解决方案。因为除了管理多个存储系统的成本外,存储对电力、冷却和场地的影响也成为重要的因素,必须列入存储所有这些数据的总成本中。另外,严峻的经济形势和存储预算的减少使情况更加严峻,迫使存储经理们更充分地利用存储容量资源。
数据缩减技术正是帮助他们实现这个目标的首要工具。
如果IT经理扪心自问,就明白主存储数据缩减技术其实治标不治本。在理想的情况下,主存储中的数据有一大部分应该删除或转移到次级存储设备上。可是,数据中心的实际情况并不尽如人意。存储常常作为一项服务配置给用户,因而,用户不希望自己的数据被转移,更不希望被删除。诸如此类的任何操作对他们来说必须是透明的。由此看来,最容易被接受的办法就是从同样大小的存储空间中获取更多的容量,而又不用转移用户数据。因此,数据缩减技术成为首选的技术,它所带来的变化有限,其中大多数优化都不需要用户操心。
优化技术
考虑主存储数据缩减时,两项优化技术首当其冲:数据压缩和重复数据删除。
尽管重复数据删除技术常在媒体上抛头露面,但数据压缩在主存储领域也许有更大的价值。这是因为重复数据删除需要有冗余的数据才能发挥作用,这也是为什么数据备份中应用重复数据删除技术,能使资金的投入有很好的回报,因为那些每周进行的完全备份几乎相同。而主存储的冗余性与备份数据不一样,至少应该不一样,虚拟机映像可能除外。因此,重复数据删除处理主存储数据的效率通常只有处理备份数据效率的1/3。
另一方面,数据压缩技术适用于几乎各种数据。虽然就处理高度冗余的数据而言,数据压缩不如重复数据删除来得有效,但主存储上的大部分数据可以压缩。另外,还可以针对数据类型对数据压缩进行微调,或利用特殊的压缩设备来缩减某些数据集。当然,其代价是要耗费处理器资源。
在理想情况下,数据压缩和重复数据删除应该结合使用,以便最大限度地回收利用主存储容量。
何处进行数据缩减?
需要考虑的另一个问题是:在何处进行容量优化,以及谁来处理优化?
如今,数据缩减最常出现在文件服务系统上,比如网络附加存储(NAS)或文件服务器。而要不要缩减数据,通常取决于存储硬件提供商,或文件系统,或通过第三方以附件形式来提供的设备。以NAS硬件为例,处理数据缩减任务的通常是文件系统本身。也有一些厂商提供独立的文件系统或NAS软件,它们可以安装到现有硬件上,以提供数据缩减机制。
显然,如果目前使用的NAS或文件系统有这项功能的话,采用文件系统的方法只适用于数据中心。这也意味着,只有该厂商的NAS存储硬件设备得到支持。如果环境中有诸多厂商的产品,或者厂商目前在其系统中不提供数据优化服务,那么用户需要借助第三方独立软件开发商(ISV)来提供这项功能。除了这类厂商常常提供的专门化优势外,这么做有时会带来其他优点,比如更大的灵活性、更通用的优化方法,以及能够在不同厂商的平台之间转移数据。从产品开发的角度来看,用户只需关注数据缩减,没必要维护整个文件系统。
迄今为止,基于块的系统上还没有太多的优化。尽管装载到传统磁盘上的文件系统也许能提供这项功能,但大多数存储阵列硬件还无法处理这项任务。不过,这在不久的将来可能会成为一个选项。随着厂商们开始推出有望在存储层之间转移数据块的自动化分层策略,不难想像,它们也能优化这些数据。
据研究调查显示,多达85%的主存储数据不再被经常访问。这种情况至今持续了多年,由此催生了诸多技术方案,比如层次存储管理(HSM)、数据归档以及现在众所周知的信息生命周期管理(ILM)。
尽管上述技术方案各有优点,值得探究,但现实情况是,许多数据中心需要迅速解决存储容量问题,没有时间或人员来实施完整的数据管理策略。因此,实际环境下的主存储通常保存了各种类别的数据:包括极其活跃的( extremely active)数据、近活跃的(near active)数据和不活跃(inactive)的数据(即陈旧的数据)。幸运的是,所有这些数据都可以得到优化。
对于主存储中多种类别的数据来说,每项优化策略对存储生态系统都会带来各自的独特影响。系统在最初需要做出的决定之一就是应该何时优化数据,是该在数据访问时实时优化,还是在数据变得不常访问后优化?
有几款解决方案可提供实时数据压缩,它们介于存储设备及访问点之间。在大多数情况下,这些系统不会给性能带来负面影响。标准的、不能识别内容的压缩是一种比较有效的算法,并不影响性能。另外,繁重的压缩工作经常会交给独立式设备去处理,使进出存储设备的数据已经经过了缩减,这就减轻了存储系统的负担。
目前甚至还有这样的实时重复数据删除解决方案:数据在存储时与其他数据进行比较。尽管这种系统对性能会有一定影响——影响的大小取决于工作负载,但关系不大。针对主存储的实时重复数据删除还没有得到广泛接受,运用时要慎重。不管怎样,存储经理必须准备好解决实时优化影响存储性能方面的问题。
实施数据优化的一种更常见的方法是,数据在闲置一段时间后进行优化。即使“不活跃的”这段时间只有短短几天,但这些数据被再次访问的可能性通常也很小。
作为后台进程的一部分来优化数据,让非常活跃的数据可以保持原来形状,不用担心数据优化会影响非常活跃的文件或数据库的存储性能。在维护期间,可以检查文件系统上的未优化数据,看看它现在是不是适合优化。如果适合,随后它就将被压缩及/或重复数据删除处理。如果不适合(意味着数据仍在活跃范围内),它能继续以原来形状来存储。
有些系统能够区分被访问的数据和被优化的数据,并能提供数据。这意味着经过优化的数据能够读取。在大多数情况下,当数据只是被访问或被读取时,数据缩减给性能带来的影响非常小;当数据首次需要优化时,其工作负载则比较大。一旦优化作为次级过程来完成,又不针对所有数据来优化,那么,的确能够优化大部分数据,并且消除性能影响方面的后顾之忧。
归档替代方案
要是不提到数据管理问题,那么对数据缩减方面的任何讨论都将是不全面的。缩减主存储空间的缺点是,尽管需要管理的物理组件相同,但典型系统上的数据量在继续增加。可以这么认为:优化使这种情况变得更糟,因为实际容量更大或物理设备更多后,管理人员再也“看不到”问题。此外,主存储数据缩减获得的优点常常仅限于主存储层。把这些数据转移到其他存储层或数据保护流程后,常常需要“重新膨胀”(re-inflated)成原来大小,然后等进入到次级存储位置时“重新优化”。尽管数据缩减技术厂商正在竭力解决这个问题,但如今问题依然存在。
解决办法就是,不要把数据缩减当做“惟一方案”,而是当做总体计划中的一部分,总体计划应包括数据归档。归档的目的是把这些数据从主存储通道迁移出去,让这些数据远离数据保护流程,但又能做到需要时易于访问。
归档系统也有类似的主存储数据缩减技术,但同时添加了充分利用密度更高、成本更低的驱动器,并可能关闭这些驱动器的电源的技术。这比单使用数据缩减技术能更进一步推迟对额外存储容量的购置。
主存储数据缩减带来了实实在在的投资回报。实施该技术后,在大多数情况下,至少会“多出”50%的存储容量。只要本来就有购买额外存储容量的想法,这种解决方案应该会很快收回成本。这是开始实行影响更深远的数据管理策略的一个好办法。
链接
数据类型与数据缩减
有些数据压缩系统,特别是那些将数据缩减处理作为次级过程的系统,可以用更多的时间来了解正在优化的数据类型,特别是压缩可以进行微调的数据类型。有一些特别的压缩算法适用于那些标准压缩引擎不能很好应对的众多数据类型。典型例子包括音频、视频和图像文件。
图像是缩减起来特别困难的数据类型。图像对存储的需求日益增加,不只是照片共享网站,像大多数企业存储的文档图像、员工照片和施工现场的照片等。如果有更多的时间,一些优化解决方案甚至能够在可视化数据类型方面更进一步,从而缩减图像文件的大小。这就是通常所谓的“有损”(lossy)数据缩减技术,因为一部分图像质量丢失了。缩减照片的分辨率时就会出现这种情况;分辨率越低,照片在磁盘上占用的空间就越小。尽管这听上去不大称心如意,但这类系统有些能让图像看上去并没有损失,这意味着在我们的肉眼看来,图像在压缩前后看上去是一样的。随着企业中的图像库不断变得庞大,这些方法也会变得越来越重要。