纠删码容错存储系统的编解码流程优化研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liunian2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的快速发展,用户的数据呈指数型增长,存储系统对容量以及性能的需求越来越高。保证高可靠性是存储系统的基础功能,多副本和纠删码是存储系统常用的两种容错存储策略。多副本通过多倍的冗余来保证存储系统的高可靠性。相对于多副本,纠删码能够用低存储开销提供高可靠性,但是在数据读写、降级读以及故障修复等过程中,需要大量的跨节点数据传输和编解码计算,所以网络和计算常成为性能瓶颈。一般来说,纠删码存储系统关注容错能力、读写性能、降级读性能以及修复性能等指标。本文主要关注于高可靠存储系统在不同的应用场景和需求下,对纠删码存储策略进行编解码流程的设计与优化,以满足系统对关键指标的要求。具体包括基于纠删码存储系统的数据布局设计来优化故障修复性能、基于纠删码存储系统的故障修复任务调度设计来均衡修复负载以及基于分离内存系统架构的纠删码流程设计来提供高可靠/高性能存储系统。其主要研究内容和贡献点如下:(1)基于纠删码存储系统的数据布局设计:分布式存储系统中常采用随机数据布局来保证存储上的均衡,但是在故障修复过程中会导致大量的跨机架流量和分批修复的负载不均衡,从而显著地降低了修复性能。另外,分布式存储系统中常常部署混合纠删码来满足多样性的用户需求,这会进一步加剧上述问题。为此,本文提出了一种均匀数据布局PDL(PBD-based Data Layout)来优化分布式存储系统中的故障修复性能。PDL是基于成对均衡设计(一种具有均衡数学特性的组合设计工具)构造的,因此能够为混合纠删码提供均匀的数据分布。基于提出的数据布局PDL,本文提出了相应的负载均衡的故障修复方案rPDL。该修复方案通过选择替代节点和源节点,有效地减少了跨机架流量,并提供了近似均衡的跨机架流量分布。本文在HDFS 3中实现了 PDL和rPDL,与HDFS现有的数据布局和修复方案相比,rPDL实现了更高的修复吞吐率,分别达到了单节点故障的6.27倍,多节点故障的5.14倍以及单机架故障的1.48倍。除此之外,rPDL将降级读延迟平均降低了 62.83%,并减轻了在故障修复时对前端应用的影响。(2)基于纠删码存储系统的故障修复任务调度设计:纠删码策略通常以低存储成本为数据提供高可靠性。一旦发生故障,丢失的块将会被批量修复。由于一批修复的故障条带数量有限,批次内的数据布局是不均匀的。再加上修复任务的源节点和替代节点的随机选择,节点间的修复负载在一个批次内是不均衡的,这严重减慢了故障修复的速度。为了解决这个问题,本文提出了一个修复任务调度模块SelectiveEC,它为基于纠删码的大规模存储系统提供了可证明的网络流量和修复负载均衡。首先,它依赖二分图来模拟节点之间的修复流量。然后,它动态地选择任务以形成批次,并使用完美或最大匹配以及k-正则子图等理论,仔细确定地选择源数据块或存储修复块的位置。SelectiveEC支持单节点故障和多节点故障修复,并且可以部署在同构和异构网络环境中。本文在HDFS 3中实现了 SelectiveEC,并在18节点的本地集群和50个虚拟机实例的AWSEC2中评估其修复性能。在同构网络环境中,与最先进的故障修复方法相比,SelectiveEC将修复吞吐率提高了 30.68%。在异构网络环境中,由于均衡调度避免了负载过重的节点,它进一步实现了 HDFS的平均1.32倍修复吞吐率和1.23倍的前台任务吞吐率。(3)基于分离内存系统架构的纠删码流程设计:在分离内存系统中,纠删码冗余策略能够以低内存成本提供高可靠性。然而,随着单边RDMA延迟可以达到微秒级,不同于传统存储系统中网络和磁盘I/O等资源是瓶颈,编解码计算成为分离内存系统部署纠删码的新瓶颈。为了在分离内存系统中实现纠删码高效部署,本文先通过对编解码计算和RDMA传输的工作流程详细的分析得到了三个关键的系统发现。然后,本文提出了 MicroEC,它通过缓存优化重新设计了编解码函数栈,并利用高效的流水线来协同优化编解码计算以及RDMA传输。本文实现了一个具有一般操作支持的系统原型,例如写/读/降级读/修复。实验表明,MicroEC显著降低了编解码延迟,与单边RDMA的低延迟相匹配,尤其是对于大于1MB的大型对象。与最先进的纠删码和三副本技术相比,它还分别实现了高达2.08倍和1.74倍的写入吞吐率。
其他文献
无机纳米材料诸如稀土、过渡金属材料具有独特的光、电、磁等性能,在医学材料领域具有广泛的应用价值。特别地,利用化学合成技术对无机纳米材料进行修饰组装,为相关医用材料的功能拓展及临床应用提供了新契机。但是,如何构建、选择适配体并利用共价/非共价键驱动修饰组装以实现无机纳米材料功能的优化及拓展仍然是目前需要解决的一大难题。此外,传统的无机纳米材料在未添加溶剂体系中呈无序排列引导的粉末状态,高温等苛刻条件
学位
物联网的日益普及正推动着各种应用的发展,如交互式在线游戏、人脸识别、3D建模、VR/AR和车辆网络系统等,这些应用每分每秒都从物理世界产生大量数据。为提高用户服务质量,需要高效利用这些数据进行模型训练或知识推理等任务,实现物联网和人工智能的深度融合。在传统的场景下,大量的数据需要通过核心网络传输到远程的云平台进行训练或处理。然而,目前的核心网络负担沉重,使得云对应用程序请求的响应存在较长延迟,这既
学位
甘蔗(Saccharum spp.)作为最主要的糖料和生物燃料的原料作物,提供了全世界80%的糖和40%的乙醇。甘蔗属是由六个种组成,分别是四个栽培种,热带种、中国种、印度种和肉质花穗种,以及两个野生种,大茎野生种和割手密种。其中,割手密种是甘蔗育种中最重要的野生种质资源,其为甘蔗栽培种提供了抗病、抗逆、抗倒、丛生性和适应性等优良的农艺性状基因。目前世界上主要的甘蔗栽培品种中均含有割手密的血缘。但
学位
<正>当今世界正面临着百年未有之大变局,各行各业都遇到了各种各样的运营问题,生产制造业面临着原材料涨价,原材料供应不足,生产流程再造等严峻问题。销售企业也同样面临着客户购买力及忠诚度下降,售后服务和销售能力不强,市场占有率低下等问题。如果未进行合理的资源分配和资源利用将会导致企业面临更大的财务和发展困境。
期刊
聚乙烯及其共聚物薄膜是目前使用量最大的高分子薄膜品类,广泛应用于包装、农业、能源等领域。挤出吹膜是聚乙烯及其共聚物薄膜的主要成型方法,深刻理解聚乙烯及其共聚物吹膜加工中结构演变机理对于发展高分子薄膜加工基础理论和指导薄膜产品开发具有重要意义。分子量及其分布,共聚单体和支链结构的类型、含量等赋予聚乙烯及其共聚物丰富的化学结构参数,使其能够满足不同的服役需求。吹膜加工中,在多个工艺步骤和参数作用下,聚
学位
柴达木盆地涩北气田为典型的多层疏松砂岩气田,气田具有埋深浅、成岩作用弱、储层敏感性强、易出砂等特点。随着涩北气田开发深入,气田普遍存在着出砂、出水加剧和地层压力下降明显等问题。常规冲砂存在冲砂效率低、遇阻频繁、冲砂液漏失、易产生储层污染等问题。通过冲砂液配方优化、地面泡沫发生筒和冲砂工艺方案的优化等措施,提升连续油管氮气泡沫冲砂工艺在涩北气田的适应性。现场应用表明:该工艺优化后提高了冲砂效率,成功
期刊
合肥先进光源(HALF)是第四代衍射极限储存环光源,辐射光谱主要位于真空紫外和软x射线区,其超高的亮度和极低的发射度要求束流轨道稳定度达到亚微米级别。除了提高磁铁精度,增强支撑装置的稳定性等,实时的全局轨道反馈控制是稳定束流轨道必不可少的方法。设计中合肥先进光源的快轨道反馈系统(FOFB)的更新速率为10 kHz,需要采集240个束流位置数据和控制160个快校正电源(水平方向和垂直方向各80个)。
学位
双轴取向聚对苯二甲酸乙二醇酯(Biaxial oriented polyethylene terephthalate,BOPET)薄膜具有透光率高、力学强度大、阻氧阻湿性能优异、物理和化学性能稳定等特点,在包装、印刷、光伏、光学显示以及其它特殊领域都有极其广泛的应用。随着光伏、电子电器以及新型显示行业的快速发展,对于具有特种性能的BOPET薄膜的需求越来越急迫,例如需要薄膜具有极低或极高的取向、高
学位
<正>癌症是全球死亡的主要原因,在英国,2017年所有死亡中有28%可归因于癌症,结直肠癌、乳腺癌和前列腺癌合计占所有新发癌症病例的39%,据估计,近40%的癌症病例可以通过可改变的因素来预防。尽管已经提出了几种饮食因素会影响患癌风险的高低,但目前仍不清楚饮食模式是否与患癌风险有关。2月24日,《BMC Medicine》上发表的一篇研究论文,称每周只吃五次或更少的肉与较低的整体癌症风险有关。
期刊
气相-表面体系中的能量交换涉及许多工业应用的核心。在这种能量交换的过程中会有一部分能量耗散到表面导致表面被热化,由此造成不必要的能量损失。研究能量交换过程中的能量耗散对于调控气相-表面动力学来说具有重要意义。考虑到气相-表面体系的复杂性,目前量子动力学计算无法考虑表面自由度因而不能描述气相-表面体系的能量耗散过程,而准经典轨线方法作为探究量子分辨动力学的有效工具已经被广泛应用于各种气相-表面相互作
学位