面向大数据的高效存储容量缩减技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaocai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的发展,全球数据量呈指数式增长,数据中心存储规模快速迈向了PB级甚至是EB级,其中包含了大量的冗余数据。这些冗余数据占用了大量的存储资源,导致存储系统性能降低,数据存储和管理成本增加等问题。在此背景下,存储容量缩减技术在不改变数据基本属性前提下,通过采用重复数据删除技术和数据压缩技术,有效地缩减数据量的规模,提高存储资源利用率,降低管理成本。存储容量缩减技术已经成为业界研究的热点,显示出重要的学术价值和应用价值。然而,大数据的规模巨大、类型繁多、冗余量庞大以及对数据处理的速度要求较高等特点,导致存储容量缩减技术在面对大数据应用时仍然存在许多需要解决的技术问题。例如如何降低数据分块时间开销,减少冗余数据块发现时间以及提高数据压缩速度和压缩率等方面。针对上述问题,从存储容量缩减技术的数据分块策略、冗余数据块的发现机制以及数据块的高速压缩机制等方面进行深入的研究。具体来说,主要从以下三个方面提出了创新性理论或方法:1.基于位串内容感知的数据分块策略(Bit-string Content-aware Chunking Strategy,BCCS):围绕影响数据分块性能的各种因素进行分析和讨论,实现了一种新的基于位串的数字签名技术,并在此基础上提出了BCCS。BCCS从数据块每个正文字节中抽取某一特定比特来构成窗口特征数据,并使用位操作替代传统的比较操作。该策略充分利用每一次失败的匹配尝试所带来的特征信息,尽量排除尽可能多的不能匹配位置,从中获取最大跳跃长度,从而加快二进制串的匹配过程,降低确定块边界的CPU资源消耗。实验结果表明,对于可变数据测试集,相对Rabin算法,BCCS的数据块划分速度最多可以提高197%;对于固定数据测试集,相对于FSP算法,BCCS速度仅仅降低10.8%,而其数据压缩率却较FSP的0.977提高到了1.206,可以提高20%。2.基于二级布隆过滤的冗余数据块发现机制(Redundant Chunk Query Mechanism based on Two-staged Bloom Filter,RCQM-TBF):针对数据指纹(FingerPrint,FP)数量巨大,不能完全存储在内存中,导致性能下降的问题,提出了RCQM-TBF。RCQM-TBF中第二级布隆过滤器作为第一级布隆过滤器结果的一个整体表现,其每一个比特位代表进入相同准二级假阳性误判状态的所有FP。对于FP假阳性访问,TBF通过降低二级布隆过滤机制中第一级和第二级过滤的假阳性误判率,快速判断新到达数据块的非存在性;对于FP正常性访问,TBF通过建立FP高速缓存链表和对应的FP预取机制来减少直接的硬盘访问,对新到达的数据块存在性进行快速判断;同时TBF创建了一个具有强全局散列特性的哈希函数族,减小碰撞发生的可能性。实验结果表明,对于非冗余测试数据集,RCQM-TBF的FP查询延迟性能和数据块的存储性能较采用标准布隆过滤算法的ZHU-BLOOM FILTER最多提升了28%;对于冗余测试数据集,RCQM-TBF的存储速度较ZHU-BLOOM FILTER最多可以提高100%到135%;当扩充服务器内存时,理论上RCQM-TBF可管理的存储数据容量最大可以达到64PB。3.基于多矩阵并行匹配的高速数据压缩机制(Parallel Matching LZSS based on Multiple Matrix,PMLZSS-MM):为了加快压缩速度,并提高存储容量利用率,提出了PMLZSS-MM。该机制实现了一种GPU平台下的多矩阵并行匹配工作模式,将需要压缩的数据动态划分多个字典串和预读串,分别将其作为矩阵的纵轴和横轴,分解到GPU中的不同线程块中,形成多个矩阵进行并行匹配;而对于需串行执行的压缩编码生成部分,仍然在CPU上执行。通过合理的调度策略,协调两者共同完成任务。实验结果表明,PMLZSS-MM容量缩减率有所下降。相对于经典CPU平台上的串行LZSS算法,容量缩减率最多下降了1.5%。但PMLZSS-MM显著提高了大数据的压缩速度,当字典窗口设置为4KB,预读数据窗口设置为64B时,相对于CPU平台上的串行LZSS算法,其压缩吞吐率最大提高了18倍;相对于GPU平台上的并行CULZSS算法,其压缩吞吐率最大提高了20.8%。综上所述,通过采用BCCS,有效地减小数据分块过程中的CPU资源消耗,提高发现块边界的速度;采用RCQM-TBF,提高数据指纹查询速度,获取高效的查询速度;引入PMLZSS-MM,进一步补充和优化前两项技术的不足,获取更高的存储容量缩减率。
其他文献
我国的中小企业融资问题比较严重,中小企业由于信息不对称问题,加之规模小、担保品少等因素,使得其在信贷市场上融资存在着严重的缺口,即通过正式金融,中小企业不能获得足够
为了寻求自行车车架的最佳结构形状,对其进行拓扑优化设计.首先介绍拓扑优化的研究现状和数学模型,接着应用有限元分析软件ANSYS11.0对自行车车架进行拓扑优化设计,得出自行车车架
绿色环保天然工质二氧化碳以其优良的热物性成为热泵系统中合成工质最有潜力的替代物之一.近年来,美国、欧洲和日本等发达国家和地区对二氧化碳热泵系统进行了大量研究.本文
人民银行领导干部履行职责审计,对领导干部如何作出客观、公正评价是难点。本文拟通过对履职审计评价量化方法(运用量化计分)的探讨.考察被审计领导干部任期内履行职责的情况.并作
运用访谈法等研究方法,对宜昌市青少年五人制足球的推广情况进行了调查,目的在于明确青少年五人制足球推广现状及困境。调查结果表明宜昌市中小学五人制足球整体推广情况良好
《德宏团结报》2016年12月12日刊登王磊的文章说,12月4日至6日,瑞丽市阿里巴巴农村淘宝村小二起航培训班热闹开训,来自全市各乡镇的31位村淘合伙人接受了科学系统的业务培训。培
2011年1月以来,央行6次上调存款准备金率,3次上调金融机构存贷款利率,使得中小企业融资更是难上加难。在此间接融资难以取得成效的情况下,加快发展直接融资则显得尤为紧迫。近年
6个月前,刘丽春(音译)还不知道她的乳房会长瘤,也没有人告诉过这位来自内蒙古的40岁中国妇女什么是乳癌;她从未听说过"乳房X光照片"或"乳房切除术"等名词。因此,她也就从未想
泥鳅身形细长、鳞片腻滑,在市场作为一种营养价值较高的鱼类贩卖,少数人也会把泥鳅作为观赏鱼饲养。那么,泥鳅该如何进行专业养殖呢?