基于HDFS的优化数据冗余策略的研究

被引量 : 0次 | 上传用户:yuerenqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展及其应用的增多导致其业务数据的暴增,传统的数据存储和处理技术已经无法满足如此日益增长的海量数据的需求。近年来,新兴的云计算具有存储和处理海量数据的能力,以及高可扩展性、高可靠性等优势,利用云计算技术存储和处理海量数据已经成为必然趋势。为了提高容错性和数据的有效性,云存储系统中引入了冗余机制,但同时也给副本管理带来了很多新挑战。比如HDFS(Hadoop Distributed File System)引入了数据完全备份的冗余方式来解决容错问题,并且当备份被分散地存储到不同地理位置的节点上时,采用就近原则访问可以降低访问时延,然而,这种方式具有存储空间消耗大、数据不可修复等缺陷。为此,一些学者提出了在云存储系统中引入纠删码来增强其数据可靠性,但纠删码的编解码操作需要耗费更多的系统资源并增加用户访问时延。为了结合二者的优势,将纠删码与完全备份结合的冗余方案REPERA(Replication和Erasure的前三个字母)被提出,但是它没有给出副本数确定和副本放置的依据。本文针对HDFS原有冗余机制的不足,在分析现有改进方法的基础上,设计了结合完全备份和改进的RS(Read-Solomon)纠删码两种冗余方法的优化数据冗余策略RIRS(Replication Improved RS)。该策略能够中和上述两种冗余方法的缺陷,有效地整合完全备份的低时延和纠删码冗余可靠性高的优势,并大大地节省存储空间。该策略还为用户提供了备份数以及纠删码冗余度等配置参数,用户可以根据需要进行设置以将系统调整为最佳状态。此外,该策略采用的纠删码算法也是经过实验分析符合HDFS的,具有很高的纠错能力和相对较低的编码时延,提高系统可靠性的同时减少了时延的增加。另外,针对RIRS中副本管理的不足,本文设计了动态副本管理优化模型DRMO(Dynamic Replication Management Optimized),它能根据文件的有效性要求获取最小副本数并动态调节副本数以获取低成本、高效率的存储服务。其次,该模型在考虑每个节点的容量和阻塞率的基础上,设计了一种均衡的副本放置策略,将副本放置到阻塞率最小的数据节点上,以降低访问时延,实现负载均衡。最后,本文在对HDFS的源代码进行分析之后,利用上述策略和模型对源代码进行修改,实现了基于HDFS的优化数据冗余策略。然后在自主搭建的Hadoop云平台上分别对系统的功能和性能进行了测试,其中功能测试结果显示本系统能够实现相应的功能,包括编解码、副本数设置、副本位置选择以及动态副本管理功能,性能测试结果显示RIRS所选择的纠删码具有最佳性能,并且DRMO能够在满足系统有效性要求的基础上减少存储空间,而DRMO的读写性能测试结果虽然与理论结果不是完全一致,但是文中给出了导致这一结果的原因的具体分析。
其他文献
在悬索桥施工或运营期间,索夹螺杆轴力均会出现不同程度的损失,为快速、准确测量索夹螺杆轴力,基于声弹性原理,开发了索夹螺杆轴力超声检测系统。首先将超声探头固定在螺杆的
随着中国经济的迅猛发展,随之而来的汽车保有量急剧增加,但是停车位却由于土地的限制而得不到相应比例的增长,停车难成为当前城市管理的一大难题。尽管在一些大型商场、购物
中学生正处在人生成长发育过程的一个特殊阶段。在这一时期,从生理上来说,他们正处于青春发育期,从心理或思想上来说,都居于尚未成熟的成长期,正是由于他们身心发展的不平衡,
随着矮化密植苹果在我国栽培面积的扩大,栽植时间的延长,这一模式的弊端也逐渐显现。海升集团作为国内率先引进推广苹果矮化密植栽培的企业,近年来放弃了继续发展苹果矮化密
现在企业间的竞争已经越来越表现为对人才的竞争,因此如何能吸引并留住人才已经成为了企业人力资源管理部门最重要的工作之一。目前中国许多企业面临的一个困难就是人员的流动
本论文主要致力于新的金属-氧簇合物的合成、结构和性能研究。在酸性条件下,选用不同的反应体系,通过水热方法主要合成出33个结构新颖、性能优异的非经典金属-氧簇合物,其全部为
席夫碱又名亚胺(>C=N–),是一类重要含氮化合物,其合成相对容易,结构比较特殊,加之反应物的灵活性,改变反应物的电子给予基和取代基,就可以衍生出许多结构多变,性能各异的席夫碱。从
激发学生参与综合实践活动课的兴趣将多媒体技术应用于小学综合实践课中能够有效地激发学生参与综合实践活动课的学习兴趣,可以调动学生的自主思考观念与主观能动性,培养学生
《亲爱的安德烈》为一部书信体散文,由台湾作家龙应台及其儿子安德烈所共著,全书由母子二人的三十六封书信往来组成。笔者选取了其中的序言、第九封信、第十六封信、以及第二十
目的:农村地区是非传染性疾病的高发地区且容易发生膳食结构不均衡现象。本研究旨在了解农村地区18~60岁农村妇女慢性非传染性疾病及膳食摄入状况,为在农村地区妇女群体中开展