基于HDFS的分布式文件系统存储研究与优化

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:caochenshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的存储系统无法满足呈爆炸性增长的海量数据存储需求,分布式文件系统应运而生,如今已得到广泛应用。传统的分布式文件系统通常采用多副本技术来保证数据的可靠性。对于副本系数为3的系统,一份数据被切分为几个块,每个块的3个副本分别存储在不同的数据节点。这种备份方法最大的缺点是需要极大的额外存储开销。随着数据量的增长,所需的存储空间增长速度将远远大于硬件设备的扩展速度,存储开销将成为数据中心的一个主要成本瓶颈。纠删码技术只需要较少的额外开销就可以获得很高的数据可靠性。而所有的纠删码中,里德所罗门码(Reed-Solomon Codes,RS码)最为常用。纠删码技术应用于分布式文件系统能显著降低存储开销、提高数据可靠性,但在修复丢失的数据时,需要付出极大的代价。就修复单个块而言,部署了里德所罗门码系统的带宽和I/O开销甚至达到了三副本系统的12倍。为此,本文提出了一个改进的RS码方案。在RS码的基础上,通过添加额外的校验块,改善RS码的局部性。对于RS(12,4)码,12个数据块生成4个校验块(全局校验块),我们仅需在这个基础上将12个数据块分成3组,每组4个块,每4个块生成一个额外校验块(局部校验块),就能使原RS码的局部性由12降为4。这意味着原来修复单个块需要读取和传输12个块,现在仅需4个块,极大的降低了修复所需的磁盘I/O和网络带宽开销。另外,本文证明了当丢失单个全局校验块时,同样能够利用三个局部校验块进行快速恢复。因为系统无需为全局校验块生成额外的校验块,因此提高了存储效率。我们通过标准马尔可夫模型估算两种不同方案的平均数据丢失时间,来进行可靠性比较,结果表明改进后的方案可靠性达到了原RS码将近100倍。同时,我们将优化方案的代码部署到了Hadoop HDFS中,并和部署了RS码的HDFS做比较。实验结果表明,优化后的方案仅以19%的额外存储空间为代价,使系统修复单个块错误时的磁盘I/O和网络开销降为原来的39%。因为修复效率更高,所以改进后的方案同时能为系统提供更高的可靠性。
其他文献
VoIP技术发展迅猛,在短短十几年的时间里,已经占有相当比重的市场份额,成为当今电信业和计算机业最热门的话题。语音网关系统内的各个电话终端采用IP方式进行数据通信,不仅能
在证券交易中,交易者根据自身拥有的信息做出投资决策,信息是决定收益的关键因素之一。目前我国证券市场中个人投资者占90%以上,但是他们获取信息以及分析信息的能力有限,这使得其
由于人是诸多活动的主体,三维人脸模型的应用领域非常广泛,包括虚拟现实、游戏、人机交互以及影视广告等。在某些注重实时性的应用场合,如游戏中,三维头部模型一般较为粗糙,
本文对电视摄像记者应具有的基本素质进行了简要论述.通过分析论述,希望对提高电视摄像记者的拍摄技术,提升节目质量有所帮助.
科学技术的发展使个人信息量成倍地增长,并成为影响个人竞争力和生活质量的重要因素。PIM(PersonaIInformatinManagement)系统的出现,为人们有效地保持信息、存储信息和重用信
由于资金、收听率、技术和人才等各个方面因素的限制,基层广播的发展普遍比较落后,整体表现出来的新闻采编工作水平相对较低而且其发展困难重重.随着时代的进步和发展,人们对
组合优化是运筹学的重要分支,主要通过对数学方法的研究寻找离散事件的最优编排、分组、次序或筛选等。大多数这类问题通常在多项式时间里无法求解,属于NP问题。随着问题规模的
目的 研究动态血糖监测(CGMS)联合胰岛素泵应用到妊娠糖尿病(GDM)患者中的治疗作用与效果.方法 由2018年8月~2020年2月,择选出我院收入的80例GDM病例,参照不同的治疗方法,把其
在人们的日常交互中,情感往往扮演着非常重要的角色,它不仅丰富了表达者的表达方式,而且有助于人们理解对方的状态和行为。因此,对情感的分析和理解已经成为了一个重要的研究课题
在快速变化的商业世界中,企业经常要改变自己的应用系统中某部分的规则来适应市场的变化,保持企业的竞争力。比如银行需要根据国家政策调整存贷款利率;零售企业需要调整自己的