纠删码存储系统中性能优化技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:drifter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据规模呈爆炸性增长。为了满足数据存储的需求,大量数据中心被建立来存储数据。这些数据中心由大规模的存储集群构成,它们使用成千上万台大容量的服务器/个人计算机节点来存储数据并提供在线,近线或离线服务。在如此大规模的系统中,失效(扇区错误,磁盘故障,节点不可用,机架停运和数据中心灾难等)成为经常性事件,而失效事件可能导致数据丢失。因此数据中心存储系统采用各种保护技术来防止失效发生时可能造成的数据丢失,如副本、快照、连续数据保护、纠删码等。其中纠删码具有高存储效率、低成本、高容错、高可靠性的特征,是现在研究的热点。然而,尽管纠删码有极其明显的成本优势和可靠性优势,但也带来高恢复开销、高降级读延时、高编解码开销等问题,从而导致系统性能降级。因此,提高纠删码的实际性能有重要的研究意义和广泛的应用价值。  本文对现有纠删码存储系统进行分析和测试,以减少纠删码存储系统的恢复开销、降低系统的访问延时、提高系统的服务能力为目标,研究高效纠删码存储系统中的若干关键技术,提出一系列新颖的设计思想和解决方案。  具体来说,本文主要创新工作体现在下面三个方面:  1.路径选择恢复策略。纠删码被设计并被广泛部署在磁盘阵列或存储集群中来保护数据,防止磁盘或节点失效造成的数据丢失。虽然纠删码往往具备容多个磁盘/节点失效的能力,但单个磁盘/节点失效的概率占主导地位。该研究从磁盘阵列或存储集群的单盘失效问题入手。发现在一些纠删码中,当单盘失效时,存在多条恢复路径来恢复失效盘。不同的恢复路径会造成不同的I/O开销,因此所选择的恢复路径会极大地影响整个存储系统的性能。基于此现象,路径选择恢复策略(简称PDRS)被提出。该策略的核心是在X-code和P-code等垂直RAID-6编码中先计算得到一条最优的恢复路径,然后具体执行相应恢复过程。该方法的正确性得到验证,同时给出了具体的实现算法。在此基础上,建立理论模型和真实原型系统来评估性能。理论和实验结果都表明,PDRS可以有效的减少I/O开销和恢复时间,从而减少失效窗口和竞争窗口,达到提高系统可靠性,减少系统降级时间,提高系统服务能力的目的。  2.本地解码优先策略。在一些基于纠删码的分布式系统中,会遭受并发性节点故障带来的降级读问题,从而影响系统性能。在传统的集中式解码方法中,为了响应降级读请求,会有大量额外的数据在网络上传输,占用大量的网络带宽,从而极大的影响系统的性能和服务能力。为了解决这个问题,本地解码优先策略(简称LDF)被提出。该方法的核心是通过挖掘存储节点的本地计算能力,尽量在本地存储节点多进行计算,然后只把中间结果通过网络传输给解码节点,从而显著减少网络传输I/O,并进一步减少用户访问延时,提高系统吞吐率。该研究建立了数学模型来评估并发性节点故障下的降级读概率和降级读开销。结果表明并发性节点故障下的降级读开销很大并会造成大量的网络传输,从而为该研究提供了背景支持。此外还使用理论模型和真实实验来衡量LDF策略的有效性,结果显示LDF显著的减少了网络传输I/O和平均访问延时,并显著的提高了系统吞吐率。  3.拆分和并行矩阵算法。该研究从一个新的角度对纠删码进行划分,把纠删码划分为对称校验编码和非对称校验编码。发现针对各种不同失效类型设计的新型非对称校验编码相对于传统对称校验编码有性能和成本优势。但这些新型的非对称校验编码仍然采用传统的校验矩阵方法执行编解码操作。该方法是串行的,且会产生很高的计算开销,从而占用过多的CPU资源并造成低编解码性能。为了解决这个问题,拆分和并行矩阵算法(简称 PPM)被提出。该算法的核心是通过拆分校验矩阵、并行编解码操作、同时优化计算顺序,来达到降低计算开销,加速编解码过程的目标。该研究建立了理论模型来分析编解码操作的计算开销,结果表明PPM算法可以有效的减少编解码操作的计算开销。此外该研究还在真实系统中测试了PPM算法的性能,实验结果表明PPM算法可以显著地加速编解码过程。  上面提出的这些理论和方法贯穿于纠删码存储系统性能研究的各个方面。包括磁盘失效重构技术的研究、分布式存储系统中的降级读研究和纠删码编解码过程的优化研究。此外,为了验证这些方法的有效性,众多工作负载、原型系统和真实实现被部署来进行大量的实验测试。结果表明这些新理论和新方法是可行且高效的。
其他文献
生物代谢一直是生命科学研究的基础领域之一,对生物代谢网络中众多反应的途径、作用、原理等进行透彻研究,对生物学、医学甚至是制药学等等各种领域都有着重要的意义。生物代
20世纪80年代,模式分析领域经历了一场“非线性革命”:为摆脱计算和统计上的线性局限的算法,支持向量机(Support Vector Machine,SVM)被第一次作为核方法提了出来。随后,基于
随着电信业务迅速发展,传统电信网逐渐显现出其不适应性,不能满足电信业务发展的需要。因此,传统的电信网正与互联网新技术相融合,演化为下一代电信网。下一代电信网的发展是
本体搜索引擎是本体选择与重用过程中的重要工具,在语义网快速发展的今天,随着本体文档的数量级不断攀升,本体搜索引擎的研究得到了越来越多的关注并发挥了日益重要的作用。近几
图像分割在计算机视觉领域应用广泛,是图像分析与图像处理中研究的重点和难点之一。生活中常见的图像为彩色图像,与灰度图像相比,彩色图像包含有更丰富的颜色和纹理信息,这些信息
计算机辅助的三维颅面复原采用计算机图形学技术从颅骨数据样本复原人脸面貌,可以应用于刑侦、考古、医学等领域。本文研究内容作为计算机辅助的三维颅面复原项目的一部分,研
许多组合最优问题都可以抽象为计算图的生成树问题。最小标记生成树就是其中之一,它的目标是给出一个边上带有颜色的图,计算使用颜色种类最少的生成树。这个问题在通信网络领
语义Web服务的主要研究内容包括服务发现,服务选择、服务组合以及服务监控等,其中一个重要的研究目标在于如何通过语义网技术提高web服务的用户查询体验,满足用户的个性化需
Web服务合成是指从互联网中选取相对简单、可用的Web服务并将它们组合成新服务的技术。对于该技术的研究已经引起了业界广泛的关注,众多研究机构都提出了自己的解决方案,比如
无线传感器网络在军事和民用领域有着广阔的应用前景,是目前一个非常活跃的研究领域。与传统网络不同,无线传感器网络资源非常有限,且以采集监测区域内的相关信息为主要任务,