面向数据中心的高性能重复数据删除机制研究

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:lisky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复删除技术是当前去除冗余数据的一种有效的技术手段,能够为大规模数据存储节省存储空间,减少了存储开销。随着数据中心的发展,重复删除技术得到了广泛的关注和应用。现在的数据中心突出的特点是分布式架构、系统规模大、数据冗余度高,这给重复数据删除技术带来更大的挑战,亟需高并发的重删技术以提高数据吞吐率。为了适应数据中心的多流数据存储,基于多流排序索引的重删技术得到初步研究,具有易扩展、并行度高的特点,能够极大地提高吞吐率。在此基础上进行研究分析,我们发现多流排序索引重删算法存在着以下两个问题:1、多个客户端之间资源分配不均,可能导致单个客户端性能下降;2、多流并行重删使指纹过于分散,破坏了数据流的局部性,从而影响了存储数据的吞吐率。对此,我们提出相应算法有效解决这些问题,完善排序索引结构,进一步优化重删性能。具体研究内容如下:1)提出了一种基于指纹分布的指纹检重调度算法。首先,通过实验获取部分数据流读取的指纹页信息,分析数据流在指纹索引表上的指纹分布类型,以及不同的指纹分布类型的数据流出现时间延迟的长短。然后,利用数据流的指纹大小预测数据流的指纹分布类型设计分类器。接下来,根据预测的指纹分布类型,为每个数据流设定优先级,优先级决定读取哪一个指纹页,指纹页由顺序读取改变为按需读取,优化吞吐率。最后,采用多个数据集模拟的数据流进行实验,结果验证了算法的有效性,说明算法不仅保证并行的多个数据流的整体性能,而且优化了时延较长的单个客户端的数据流。2)提出了一种基于密度的多流并行检重算法。首先,计算排序相邻指纹的差,找出单个数据流的指纹密集区域,所有数据流的指纹密集区域组成集合。然后,计算公共指纹密集区域;只检重每个数据流在公共指纹密集区域内的指纹,其他指纹留下与新来的指纹进行新一轮的检重。最后,实验统计重删过程中读取的指纹页的数量,表明算法减少了重复指纹页的读取次数,从而极大地提高了重删吞吐率。
其他文献
<正>由于小儿腠理不密,肌肤薄嫩,易为外邪侵袭,伤及脏腑,导致水液代谢障碍,所以,小儿易患急性肾小球肾炎。目前西医对本病尚无特殊治疗。笔者自拟“急肾方”加减治疗本病获得
本试验以‘津春4号’黄瓜幼苗叶片为试材,研究HCO3-、K+和HSO3-对黄瓜幼苗光合作用的影响,试图用KHCO3水溶液中的HCO3-作为碳源来补充CO2的不足,同时用NaHSO3适当的抑制黄瓜
研究铁粉的除砷效果,考察铁粉与石英砂的质量比对除砷效果的影响。结果表明,采用m(铁粉):m(石英砂)=2.0:100的填料能有效去除高砷地下水中的砷,出水总砷质量浓度〈50μg/L。该方法高效
面对新增土地供应紧缺的约束,城市更新将成为深圳保障性住房供应的有效途径之一,从政府精细化管理角度出发,制定城市更新项目保障性住房配建比例的技术规定,是完善住房公共政
随着计算机技术的发展,云计算成为当前被广泛使用的服务。本文基于云计算技术的基础上,对档案信息资源云共享服务的内涵进行了阐述,并结合云计算平台,构建了包括资源层、管理
随着近年来全球范围内与互联网有关的借贷业务和模式的迅速发展,互联网金融市场也随之不断扩张。为解决网络交易平台因金融和互联网创新产生的一系列潜在的风险问题和技术问
对大型液化天然气储罐的绝热保冷材料及其保冷结构进行了详细的研究,提出了用于LNG储罐的保冷材料所应具有的性能及LNG储罐保冷结构特点,并以一台10000m^3 LNG单容罐的保冷设计
针对敌我识别(IFF)信号及战术空中导航(TACAN)信号侦察的需求,在传统相关干涉仪测向模型基础上,改进设计出一种适合IFF和TACAN脉冲的高精度实时测向模型,并使用甚高速硬件描
针对机动目标与目标跟踪的动态对抗特性,在介绍对策论基本理论的基础上,结合典型IMM算法模型集,将对策论应用在了机动目标跟踪领域。通过产生赢得矩阵,计算赢得概率,探讨了IM
通过设计孔洞的分布,可以得到材料性能具有梯度变化的新型功能梯度材料。建立了孔洞材料的有限元分析模型,运用ANSYS分析软件数值模拟孔洞分布不同的梯度材料在一定载荷下的