海量数据的重复数据删除中元数据管理关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:shena011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球范围内数据的爆炸性增长,重复数据删除技术已经被越来越广泛地应用于存储和网络传输系统。面向存储和网络传输系统的重复数据删除,涉及众多科学问题,针对备份存储系统,本文就其中的元数据管理相关的几个核心问题进行了系统深入的研究,包括重复数据删除中的元数据抑制、缓存、通信问题和自适应的重复数据删除问题,以降低重复数据删除的空间和时间开销,优化重复删除效率和元数据比例、去重吞吐率开销之间的权衡,应对数据快速增长和计算机系统高性能计算的需求。主要的创新成果包括:?针对元数据的高空间开销问题,提出了一种基于滞后哈希划分的元数据抑制算法。一方面,基于数据局部性信息,通过初始哈希合并,动态地将多个连续非重复的小粒度哈希索引合并成一个大粒度哈希索引,从而减少元数据中哈希索引的数目,实现元数据抑制;另一方面,在去重过程中根据检测到的重复数据分片边界,提出了一种对大粒度哈希索引作动态滞后哈希划分的算法,以保证元数据的索引效率。?针对元数据的高磁盘读写开销问题,结合元数据抑制,提出了一种高效率的元数据写缓存算法。通过元数据抑制,可以用相同的内存开销,在写缓存中缓存更多的哈希索引信息,并提高去重过程中元数据的缓存命中率,以及减少去重过程中的磁盘访问操作,从而显著提高系统的去重吞吐率。?针对广域网中两个节点之间作基于重复数据删除的数据传输场景下,元数据的高通信开销问题,结合元数据抑制,提出了一种元数据反馈算法。基于数据局部性信息,接收端向发送端反馈必要的元数据,减少网络节点间重复查询和应答带来的时间开销,提高网络节点间的去重吞吐率。?针对重复数据删除的高系统资源开销问题,提出了一个自适应的重复数据删除框架和一个启发式数据分块均匀跳跃算法。在去重过程中,自适应地“跳过”重复可能性比较低的数据分块,减少重复数据删除的空间和时间开销,优化重复删除效率和元数据比例、去重吞吐率开销之间的权衡。
其他文献
<正>高价抢夺房源风波后,自如又陷"甲醛"漩涡。今年7月,一名阿里员工死于急性白血病,半年前入职时,他的体检报告并无明显异常,其妻子检测了丈夫生前租住的杭州自如公寓,结果
选取我院2016年1月-2017年1月期间接受的妊娠糖尿病患者58例,设为研究组,58例健康体检孕妇为对照组。结果:研究组空腹血糖(FPG)、糖化血红蛋白(HbA_(1c))、OGTT值均高于对照
目的分析胃癌组织中粒细胞集落刺激因子(granulocyte colony-stimulating factor,G-CSF)及其受体(G-CSF receptor,G-CSFR)的表达水平,探讨二者表达与胃癌浸润和淋巴结转移的
如今的大多数企业或组织均建立了不同的信息系统,以支持他们的业务流程执行,例如ERP、CRM或工作流管理系统。这些信息系统有效地支持了企业内部业务流程的执行及其事件日志的
少数民族图书馆是公共文化服务体系的重要基点,是收集、收藏和保护少数民族和少数民族地区文献的重要机构,少数民族地区图书馆在担当着发展全民阅读、培养公众阅读意识等方面的
高海拔冷凉地区露地栽培的芹菜产量高,品质优,商品性好,具有天然环保无污染的优势,栽培面积逐年扩大。近年来,部分生产者对芹菜黑腐病和软腐病的症状识别不清,防治效果不佳,
招生难是技工类院校普遍面临的窘境,日趋成为技工类院校的聚焦问题。生源质量对学校生源有着不容忽视的影响,要杜绝陷入生源差——招差生——生源差的恶性循环。笔者以自己所
由于血管介入手术过程中医生遭受大量的X射线辐射以及导丝操作难度大.血管介入机器人得到了较快发展。在分析血管介入手术过程的基础上.提出血管介入手术机器人的关键技术.并对
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨小潮气量联合低水平呼气末正压通气(PEEP)用于老年患者全身麻醉中对呼吸功能的影响。方法将该院拟行上腹部手术的46例老年患者分为两组,每组各23例,对照组采取常规潮气量