分布式存储系统中纠删码的数据修复技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zhangxu0202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“大数据”时代背景下,信息技术产业已从以计算为核心的时代进入到了以存储为核心的时代,数据海量化成为了一种趋势。构建于普通服务器集群之上的分布式存储系统,因其成本低廉和扩展性高等优点被广泛应用于海量数据的存储。但是分布式存储系统节点规模庞大且单个节点可靠性不高,致使系统发生节点失效的概率大为提高。为了保证数据可靠性,系统必须采用一定的数据容错技术。纠删码作为一种可靠性高且存储空间消耗少的容错技术,对提高分布式存储系统的数据可靠性并降低其经济成本具有重大意义。但是纠删码数据修复网络负载高、数据修复速度低等问题严重阻碍了其在分布式存储系统中的广泛应用。针对以上问题,本文对纠删码的低网络负载数据修复技术和快速数据修复技术进行了深入研究,主要研究内容与贡献如下:数据修复网络负载的传统度量指标是传输的数据量,这一指标忽略了数据传输距离的不同,不能精确衡量修复过程中数据传输对网络性能产生的影响。针对此问题,本文提出了基于网络拓扑的网络负载度量指标:网络代价。网络代价将数据传输的网络负载定义为数据传输量与传输距离的乘积,更精确地描述了数据传输所占用的网络资源,从而更好地刻画了数据传输对网络性能造成的影响。实验结果表明,网络代价能够比数据传输量更加精确地反映数据传输对网络性能造成的影响,是更好的网络负载度量指标。针对纠删码数据修复网络代价过高的不足,本文提出了一种基于网络拓扑的树型数据修复技术NTree。NTree根据网络拓扑将参与修复的节点组织成总网络距离最小的树型修复结构(修复树),以最小化修复时数据的传输距离,从而使修复的网络代价达到最低。在此基础上,提出了提供节点组合的选择算法OpTree。OpTree能够在从所有可用节点中快速选取最优提供节点组合的同时构建出最优的修复树,进一步降低NTree的网络代价。大量的模拟实验结果表明,NTree相比于现有的星型修复方法,可将纠删码数据修复的网络代价降低20%-45%。针对纠删码数据修复速度慢导致退化读性能差的问题,提出了一种基于网络拓扑的线型数据修复技术NLine。对NTree修复过程的深入分析表明,修复速度与修复树的最大入度成反比。NLine根据网络拓扑将参与修复的节点组织成最大入度为1的线型修复结构(修复路径),从而达到了最快的修复速度。同时,为了尽量降低NLine的网络代价,提出了近似最优的修复路径规划算法OpLine。大量模拟实验结果表明,NLine能够以接近于NTree网络代价获得至少比星型修复方法高400%,比NTree高100%的修复速度。基于上述理论研究成果,设计实现了一个纠删码数据修复原型系统ECRepair。ECRepair完全遵循机制与策略分离的设计原则,不仅支持基于网络拓扑的树型数据修复技术NTree和基于网络拓扑的线型数据修复技术NLine,也可以方便地添加对其它树型修复技术的支持,并且适用于任何线性纠删码。大量真实环境下的实验结果表明,在星型修复方法、基于网络拓扑的树型数据修复技术NTree和基于网络拓扑的线型数据修复技术NLine中,NTree具有最低的网络代价和最高的并行修复速度,NLine具有最快的串行修复速度和最高的退化读性能,进一步验证了理论分析和模拟实验的结果。
其他文献
计算机信息技术围绕着信息的载体数据展开,企业业务更是24小时离不开数据.如果由于系统故障或灾难原因造成企业的重要数据丢失,将会给企业带来重大经济损失.为确保企业关键数
嵌入式系统被定义为:以应用为中心、以计算机技术为基础、软硬件可裁剪、适应应用系统对功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。 它源自于八十年代到九
网络地理信息系统(Web GIS)是因特网与地理信息系统结合的产物,具有开放性好、数据分布式存储等优点。虚拟现实建模语言(VRML)是一种标准的文件格式,它表现的是一种用户可进入
基于NAND Flash的固态盘凭借其低能耗、低故障率、高性能等优势,正逐步应用到企业级服务器和高性能计算领域。为保持主机对固态盘的访问接口与磁盘兼容,并有效解决NAND Flash
近年来,随着计算机视觉、计算机图形学和虚拟现实等相关领域的飞速发展,三维织物动态仿真技术因其广泛的应用前景逐渐成为一个研究热点.该论文正是针对三维织物动态仿真及相
随着当代科学技术的飞速发展,科学计算可视化已经在各个领域得到了广泛的应用,但对于核聚变反应堆概念设计这个特殊的领域,其设计过程复杂,数据量庞大,数据样式各异,分析研究的对象
随着我国城市社会、经济的快速发展,城市交通发生了前所未有的迅速增长。为了改善日趋拥挤的交通状况,更有效地控制高峰时段的道路交通流量,缓解城市交通拥挤,我国的一些城市已经
随着信息技术的快速发展,特别是大数据的出现,企业需要充分利用网络虚拟化技术带来机遇,构建自己的虚拟化平台或租用其他公司提供的虚拟数据中心。多租户共享网络作为一种新
网格的目标是实现对地理上广泛分布的大量异构资源进行共享。由于网格固有的异构性、分布性和动态性,传统的资源管理方法在网格环境中并不适用。此外,要吸引各类资源消费者和提
在龙芯2号CPU的众多应用中,视频播放是最重要的应用之一。提高龙芯2号的视频播放性能无论对于现在还是将来都有十分重要的意义。视频播放的总时间分为视频解码、视频输出、音