论文部分内容阅读
一.引言
2012年初,中央电台媒资备份存储系统正式投入使用。经过一年的运行,大量的节目内容,丰富的历史资料迅速将中央电台媒资备份存储系统填满,严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20TB,增加30TB,总计达到50TB。短短一年时间,磁盘空间需求已经翻番,可以预见,中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题,如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。
二.数据冗余
三.重复数据删除概念
通过相关研究和对实际系统的分析发现,在海量数字存储系统中,存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据,对相同数据只存储一份和只存储相似数据的不同部分,可以有效利用存储空间,从而有效降低存储系统成本。
重复数据删除是一种数据缩减技术,旨在最小化文件之间的冗余和重复的无损压缩,并对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而达到消除冗余数据目的。
目前,绝大多数的重复数据删除算法都工作在二进制数据层次上,通常使用一些数据切分算法,如以整个文件为切分粒度,固定大小的数据切分,或者某些HASH函数(如Rabin Fingerprinting算法),将每一个带归档的文件切分成若干相互不重叠的数据片段,并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中,只有不重复的数据片段才真正存储到存储设备中,而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。
2. 文件切分
重复数据删除对于S48音频文件切分算法的实现基于以下的观察和思考:许多不同的文件有着相同的音频内容和不同的TAG描述信息,即相同的歌曲由同一个歌手演唱,但发布在不同专辑,或者相同的内容由不同编辑制作,这样就有了不同的TAG。因此,一般把每个S48文件划分成三个部分:帧头、音频帧、TAG,其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中,音频帧作为一个逻辑数据片段存储,以便进一步被打包成物理对象实际存储在磁盘设备上。
具有相同音频的数据内容被切成一个数据片段,只需保存其中一份即可。由于某些HASH函数(如Rabin Fingerprinting算法)可以捕获到二进制层次上的重复,所以若两个数据对象具有相同的内容,则可进一步进行重复数据删除,只存不重复的数据对象。图3展示了上述过程,并说明在存储系统中数据组织的层次关系。
3. 方案实施
重复数据删除主要是针对大规模存储系统设计,其进程可以部署在不同的应用服务器上,且可作为核心进程运行。因此,其方案需要有较好的可扩展性,易于进行数据容灾的部署。
因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器,文件归档服务器,元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。图4展示存储系统体系结构。
应用服务器为各种应用的宿主服务器,如WEB服务器,流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点,同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件,即操作系统、阵列柜、磁带库、文件系统等组成。
对于每个存储文件首先根据其相应的元数据信息,被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符,用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象,由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智能存储节点直接进行数据传输。这样应用服务器产生、调用的节目素材等内容就通过入库、切割、计算、存储等步骤进行了“瘦身”,最大限度的精减系统内冗余、重复数据的产生,从而实现了重复数据删除。
六.总结
随着中央电台编播系统数字化的发展,节目内容、节目素材将呈现爆炸式增长趋势,数据总量将急剧膨胀。我们将面临诸多挑战,如媒资备份存储空间不足、成本高昂等问题。本文通过对重复数据删除技术的探讨,采用标准、科学、先进和可靠的技术,阐述了全新的媒资备份存储系统,为今后的媒资备份存储系统发展规划,提供了有效的支持,并确保系统在今后相当长一段时间留有扩充余地。希望能为广播电视的媒资备份存储系统建设提供一种新思路。B&P
参考文献
[1] 袁玉宇 刘川意 郭松柳 . 云计算时代的数据中心. 电子工业出版社 .2010
[2] 李栋 数字声音广播 北京广播学院出版社 2001
[3] Dave Reinesl. Our Expanding Digital World:Can we contain it? Can we manage it? Intelligent Storage Workshop(ISW2008),UMN,MN,2008
[4] 张为民 唐剑锋 罗治国 钱岭 . 云计算:深刻改变未来 . 01版 . 北京 . 科学出版社 . 2009
[5] 朱近之 张振伦 金海龙 蒋建华 王春海未来,在云端 微型计算机 2011(2)
2012年初,中央电台媒资备份存储系统正式投入使用。经过一年的运行,大量的节目内容,丰富的历史资料迅速将中央电台媒资备份存储系统填满,严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20TB,增加30TB,总计达到50TB。短短一年时间,磁盘空间需求已经翻番,可以预见,中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题,如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。
二.数据冗余
三.重复数据删除概念
通过相关研究和对实际系统的分析发现,在海量数字存储系统中,存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据,对相同数据只存储一份和只存储相似数据的不同部分,可以有效利用存储空间,从而有效降低存储系统成本。
重复数据删除是一种数据缩减技术,旨在最小化文件之间的冗余和重复的无损压缩,并对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而达到消除冗余数据目的。
目前,绝大多数的重复数据删除算法都工作在二进制数据层次上,通常使用一些数据切分算法,如以整个文件为切分粒度,固定大小的数据切分,或者某些HASH函数(如Rabin Fingerprinting算法),将每一个带归档的文件切分成若干相互不重叠的数据片段,并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中,只有不重复的数据片段才真正存储到存储设备中,而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。
2. 文件切分
重复数据删除对于S48音频文件切分算法的实现基于以下的观察和思考:许多不同的文件有着相同的音频内容和不同的TAG描述信息,即相同的歌曲由同一个歌手演唱,但发布在不同专辑,或者相同的内容由不同编辑制作,这样就有了不同的TAG。因此,一般把每个S48文件划分成三个部分:帧头、音频帧、TAG,其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中,音频帧作为一个逻辑数据片段存储,以便进一步被打包成物理对象实际存储在磁盘设备上。
具有相同音频的数据内容被切成一个数据片段,只需保存其中一份即可。由于某些HASH函数(如Rabin Fingerprinting算法)可以捕获到二进制层次上的重复,所以若两个数据对象具有相同的内容,则可进一步进行重复数据删除,只存不重复的数据对象。图3展示了上述过程,并说明在存储系统中数据组织的层次关系。
3. 方案实施
重复数据删除主要是针对大规模存储系统设计,其进程可以部署在不同的应用服务器上,且可作为核心进程运行。因此,其方案需要有较好的可扩展性,易于进行数据容灾的部署。
因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器,文件归档服务器,元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。图4展示存储系统体系结构。
应用服务器为各种应用的宿主服务器,如WEB服务器,流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点,同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件,即操作系统、阵列柜、磁带库、文件系统等组成。
对于每个存储文件首先根据其相应的元数据信息,被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符,用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象,由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智能存储节点直接进行数据传输。这样应用服务器产生、调用的节目素材等内容就通过入库、切割、计算、存储等步骤进行了“瘦身”,最大限度的精减系统内冗余、重复数据的产生,从而实现了重复数据删除。
六.总结
随着中央电台编播系统数字化的发展,节目内容、节目素材将呈现爆炸式增长趋势,数据总量将急剧膨胀。我们将面临诸多挑战,如媒资备份存储空间不足、成本高昂等问题。本文通过对重复数据删除技术的探讨,采用标准、科学、先进和可靠的技术,阐述了全新的媒资备份存储系统,为今后的媒资备份存储系统发展规划,提供了有效的支持,并确保系统在今后相当长一段时间留有扩充余地。希望能为广播电视的媒资备份存储系统建设提供一种新思路。B&P
参考文献
[1] 袁玉宇 刘川意 郭松柳 . 云计算时代的数据中心. 电子工业出版社 .2010
[2] 李栋 数字声音广播 北京广播学院出版社 2001
[3] Dave Reinesl. Our Expanding Digital World:Can we contain it? Can we manage it? Intelligent Storage Workshop(ISW2008),UMN,MN,2008
[4] 张为民 唐剑锋 罗治国 钱岭 . 云计算:深刻改变未来 . 01版 . 北京 . 科学出版社 . 2009
[5] 朱近之 张振伦 金海龙 蒋建华 王春海未来,在云端 微型计算机 2011(2)