面向海量数据的分布式去重技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wangzhao0922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代信息化社会,数据呈现爆炸式增长。这会带来三个方面的严重问题,即存储和管理数据的成本越来越高,数据备份和恢复的时间越来越长,以及数据中心的能耗越来越严重。重复数据删除技术在缓解数据的高速增长和节约成本方面有很好的应用前景,然而面对日益增长的海量数据,该技术需要加强高可扩展性的支持。本文针对数据路由和指纹查询技术进行了深入的研究,以提高分布式去重系统的扩展性。  本文的工作主要包括:  (1)提出了基于分布式布隆过滤器(Bloom Filter)的有状态数据路由机制。分布式去重系统中的数据路由机制会影响系统整体的去重率和存储利用的均衡。针对有状态数据路由因内存资源消耗较多而导致的扩展性不佳,本文提出一种分布式布隆过滤器技术,利用布隆过滤器的等价效果,将一个布隆过滤器等价拆分成多个布隆过滤器,并将其应用于有状态数据路由中。该机制一方面将保存数据摘要的节点扩展到多个,突破了单节点的内存瓶颈;另一方面,由于采用了分布式布隆过滤器,通过指纹的分类发送降低了通信开销。这两方面的改进可显著提高有状态数据路由的扩展性。  (2)提出了基于取样机制的指纹查询优化策略,以应对磁盘瓶颈问题。通过利用重复数据的局部性和可扩展索引的方法减少磁盘的访问次数,提高去重过程中指纹查询的性能。  (3)设计和实现了一个分布式去重系统DDSS,并进行了去重率、数据路由扩展性和去重吞吐率的评测。在去重率方面,实验结果表明DDSS中的有状态数据路由比无状态数据路由提高20%以上。前者偏离存储利用率平均值的最坏情况低于2%,而后者高于5%。在扩展性方面,DDSS中的有状态数据路由可在多节点条件下保持与单节点相当的去重率,波动低于5%。在去重节点内部,指纹取样机制在取样率为1/32时能获得非取样机制下的去重率的95%以上。对于不同的数据集,指纹缓存的命中率均高于20%。在去重吞吐率方面,单节点多数据流的去重带宽可达200MB/s,并在扩展到8节点时去重带宽可保持接近线性扩展。
其他文献
学位
随着web和社交网络的兴起,图计算相关的应用已经成为计算机领域的一个热点。为图计算提供数据存储服务和查询服务的图数据存储系统,在面对社交网络这种大规模数据集时,也正遭遇
随着网络的持续发展,数据量以惊人的速度增长,冗余信息大量存在,同时数据间存在着复杂的关联关系。这使得现有的排序方法中面临着三个问题:信息冗余影响排序结果、将异质关联关
学位
深度学习是机器学习领域中比较新兴的方向,很多研究者相信通过对它的研究,可以达到机器学习的一个本质目的——人工智能。本文主要研究了如何将深度学习应用于行人重现检测技术
高性能计算对科学技术的进步、经济社会的发展起着不可估量的作用,除对性能的追求以外,高能效在高性能计算领域也受到越来越多的重视。面向应用的定制计算是提高计算效能的有效
随着普适计算和物联网的发展,衍生出一类基于位置服务的应用。目前基于位置服务已得到了迅猛的发展,并广泛应用于场馆定位导航、移动互联网应用、资产管理、人员定位、物流管理
我国是一个地质灾害频发的国家,每年地质灾害给国民经济和人们生活带来的创伤是难以计数的。地质灾难不仅给民众的生活安定带来了严重的影响,更严重的牵涉到国家的重大经济决
学位
耦合器是地球系统模式重要组成部分,用于连接各个分量模式。中科院地球系统模式CAS-ESM中使用的CPL耦合器在增加新类型的分量模式、添加耦合物理量、设置耦合频率等环节需要对