面向负载均衡的重复数据删除研究与优化

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:xiaoxiao_666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,一方面我们需要安全有效地存储海量数据信息,存储系统的容量亟待增大;另一方面大数据量也对数据处理能力提出了新的要求,存储系统的性能亟需提升。重复数据删除技术为应对大数据环境下,存储容量的增长远落后于数据爆炸式增长的现状,提供了一种有效的数据存储手段,但是轮循式的数据分配方式并不能有效地利用节点间的并行性,导致负载不均衡的问题。本文针对该问题,通过改进和优化数据分配策略,以提升系统的吞吐率和读性能。论文的主要研究内容和创新点包含以下几个方面:首先,针对重复数据删除技术进行了系统全面的研究。先从基本原理出发详细介绍重复数据删除的具体过程,随后对重复数据删除的分类进行了说明,然后重点阐述了重复数据删除所涉及的重要技术,包括数据分块、性能优化、可靠性和可扩展性等方面,并结合现有的实例进行了分析,最后总结当前面临的问题和挑战,并提出本文将要改进和优化的方面。其次,针对当前重复数据删除后,数据块顺序放置不能有效地利用节点间的并发性而导致读吞吐率和读性能不高的问题进行了改进和优化。对于分布式的存储节点,设计并实现了一种基于文件感知的重复数据删除策略(File-Aware De-duplication,FA-Dedupe),该策略在保持系统重删效率的前提下,以数据块互斥为原则,尽可能地均匀分布数据块,充分利用节点间的并发性提升访问效率。再次,针对文件感知分配策略产生的存储空洞问题进行了优化。在综合考虑感知策略的有效性、存储效率和性能提升等方面后,设计了两种空洞减少机制,一种“缓和”的方式在保证感知策略有效的前提下,在数据存放的过程中缓慢的调整分配方案减少空洞,该方法兼顾文件感知策略的有效性但是效率较低;另一种是“暴力”的方式,通过检查阈值,当超过时就忽略文件感知策略直接填充空洞最多的节点,该方法效率较高但是对性能带来一定的损失。最后,分别实现了传统的B-Dedupe和改进的FA-Dedupe的模拟程序,并对优化前后重删率和读写性能进行了测试。实验结果表明本文设计的策略在保证系统重删效率的情况下,以牺牲少量写性能为代价,换取了更低延迟的读性能,同时减少了存储空洞保证了空间利用率的均衡性。
其他文献
随着我国社会经济的迅速发展,人们对文化娱乐产品的需求也越来越大。本文基于大屏幕特种电影,对其放映过程中的图像放大方法开展了相关研究。论文首先总结了当前已有的各类常
随着信息技术和Internet应用的快速发展,电子商务已经逐渐成为人们进行商务活动的新模式,这就产生了一个新的问题:信息数字化产品很容易被盗版,侵权和随意篡改,存在着极大的
当前超大规模高性能计算机朝着商用处理器与计算加速器混合异构方向发展,与传统的并行计算机系统相比,计算性能有了较大改进。在2010年,Intel发布了MIC(集成众核架构)并行协
本文分析了前人在图像拼接领域的研究成果和研究现状,介绍了图像拼接的流程、图像的采集以及常见的图像变换模型。重点研究了图像拼接技术中的图像配准及图像融合等关键技术
目前,P2P技术广泛应用到文件共享、即时通讯等众多领域中,在这些应用获得了一定成就的同时,也给网络中的用户提供了的帮助和带来了享受。在众多应用中,文件共享的应用是P2P技
随着计算机网络与信息技术飞速发展,信息的获取、发布和分享进入了一个新时代。Web服务解决了传统网络应用程序的分布式对象、中间件技术的相互独立性和紧耦合性,其诸多优点
随着P2P技术的发展,其应用越来越广泛,其中基于分布式哈希表(DHT)的P2P资源搜索算法正是近年来P2P技术领域研究的热点。对于基于DHT系统的大量研究主要集中在如何提高查询效率
数据中心是Internet的重要基础设施,它为用户提供数据存储、计算和传输等核心服务支撑。随着网络技术的高速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子
随着无线通信技术和移动终端技术的快速发展,以IEEE802.11为基础的无线局域网(WLAN)得到了越来越广泛的应用。与此同时,VoIP以其价格低廉、资源利用率高等优点成为当今发展最快
学位