云备份系统中闪存辅助分段式布隆过滤器的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qq619609199
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了能够在网络带宽较低或中等的区域实现云备份应用,网络上传输的数据量应越低越好,通过对备份数据使用重复数据删除技术,能够显著降低网络传输数据量。重复数据删除的方法很多,其中一个解决方案是将文件切分成比较小的片段,这需要使用到大布隆过滤器。在空间/时间效率方面,布隆过滤器相比其他数据结构具有明显的优势。但布隆过滤器在哈希函数个数增加或者它装载的元素个数增加时,误判率会有升高的趋势。由于云备份系统重复数据删除将产生大量指纹,若布隆过滤器的长度较小则会产生较高的误判率,长度增大则会增加内存消耗。  针对如何降低内存消耗,提高重复数据删除的整体性能,本文提出了一种闪存辅助分段式的布隆过滤器(FASBF)方法,即在大规模云备份系统中将布隆过滤器部署在SSD上。由于SSD没有机械磁头,因此其读速度很快;而分段式的布隆过滤器则可以方便划分存储空间。在本文的方法中,布隆过滤器全部保存在SSD中,只有部分保存在RAM中。保存在RAM中的部分布隆过滤器的大小决定了整个应用的RAM空间消耗。当部分分段式布隆过滤器阵列(PSBFA)大小占整个分段式布隆过滤器阵列(FSBFA)大小的一半时,应用的内存消耗就减少为原来的一半。本文使用三种方法优化了重复数据删除的数据检索过程:首先布隆过滤器的长度可以充分大,其次可以使用更多的哈希函数来减少误判率,最后由于布隆过滤器占用的内存空间减少,内存中可以缓存更多的指纹,这将极大地减少由误判率导致的磁盘I/O开销。为了最大化利用SSD,文件和数据块的指纹哈希桶(在初始状态时)部分被保存在SSD上,而随着布隆过滤器的增大,SSD上分配给指纹哈希桶的空间将逐渐减少,这时将会把哈希桶保存到磁盘上。  本文基于一个云备份系统,对FASBF方法进行了原型实现及性能测试。结果表明本方法能够节省可观的内存空间,同时又能达到100MB/S左右的备份吞吐率。
其他文献
高清体绘制的算法研究要求高质量、高效率的绘制体数据的数据特征。直接体绘制方法在GPU并行加速的支持下能够达到高质量、实时可交互的绘制,但是对用户感兴趣区域的绘制往往
战术Ad hoc是用于战术通信环境的移动Ad hoc网络,在战场指挥通信领域有着广泛的应用前景,其中两栖作战就是一个重要的战场应用环境。结合当今世界对两栖作战有着现实需求,因
当采用成像设备进行拍摄时候,经常会出现在同一个场景中的多个不同目标,当距离差距较大时候,总是存在一些目标清晰,而另外一些目标模糊,想获得所有目标清晰是很困难的事情。但是对
神经元脉冲信号的建模与预测是神经科学领域的重要研究问题。通过神经元建模来分析脉冲信号的发放特点,有助于研究学者们更加深刻地理解大脑在执行高级认知任务中的工作方式
为了提高物理资源的利用率,虚拟化技术得以普遍运用。通过运用虚拟化技术,单台服务器上可以整合许多虚拟机来为用户提供各种服务。为了保证用户的良好体验,这台服务器对硬件
随着社会网络化和信息化的迅猛发展,在许多领域积累了海量的数据,如何降低这些数据的维度,从中选择出有用的特征,一直是海量数据挖掘的重要研究课题。基于Rough集理论的属性约简
随着移动GIS技术、可定位技术、多媒体技术、无线通信技术和移动终端技术等的迅猛发展,具有可定位信息的视频越来越受到人们的关注。可定位视频是将视频数据与空间数据集成,融
软件行业的不断规范化,不断完善化也随之带动着软件测试行业的不断发展。软件测试工作也由原始的纯手工测试逐步演变为规范化,程序化也是必需化的工作。软件测试工作在软件生
随着软件复用及应用的深入研究,可复用软件构件库作为软件复用的一项重要基础设施已经越来越得到产业界与学术界的重视。构件的查询是构件库的基本功能,利用聚类技术对构件进行
随着工业的快速发展,实时系统成为了工业领域中一个重要的组成部分,在航空航天、军事、汽车、核工业等一些关键领域中,不仅要实现其系统中的功能,而且要保证其在规定的时间内