面向分布式集群计算的容错技术研究与设计

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:siquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和社交媒体的不断发展,政府和企业对海量数据的存储和管理需求也急速增长。由于单节点数据管理系统存在严重的单点失效问题,同时也缺乏对海量数据的管理能力,为此分布式集群数据管理系统已成为未来发展的趋势,将极大地增加系统的处理能力和可用性。近年来,分布式集群数据管理系统越来越受到人们的关注,并已广泛地应用于民航、金融、工业控制等任务关键型领域(mission-critical)。就整个系统总体而言,分布式系统比传统集中式系统更可靠,但是分布式系统存在着部分失效问题、时钟不一致问题、消息传递失效等问题,最终将导致数据管理的失败,并造成重大经济损失。容错技术是解决上述分布式系统问题的重要手段,可以有效提高系统的可靠性。基于内存计算的无共享并行数据库系统已然成为快速分析关系型数据的利器,CLAIMS系统为此类系统之一,旨在充分利用内存计算的迅捷性来提升数据处理的性能。内存数据的存取速度是磁盘数据存取速度的200倍左右,内存计算是实时数据分析的基础,但是内存的易失性也对内存集群计算系统的容错性提出了更高的要求。因此,如何提高分布式集群下高速计算系统的容错性,保证系统运行的可靠性和可用性已成为首当其冲需要解决的问题。目前主流系统中的容错手段还比较单一,并不能满足规模日益增长的集群系统的需求。CLAIMS系统同样面临着这样的问题,设计出一套完整的高可用容错机制迫在眉睫。目前实际应用中主要的容错手段包括组件备份,检查点设置,作业迁移等,在一定程度上解决了分布式系统容错的问题,但无法满足内存集群计算系统的需求。针对复杂任务长时间连续作业的情形,我们提出了更加先进的混合容错机制,并且针对每一种容错手段进行优化、改进、组合,并提出新的算法理念。本文立足于CLAIMS分布式内存数据库系统,设计了CLAIMS系统中的容错系统,采用混合容错方式,将k-safe多投影存储、自适应动态心跳检测机制、执行计划切分选择性持久化和动态检查点设置进行了实现和优化。设计了CLAIMS系统中针对QoS服务级别的编程框架。充分的实验证明在OLAP系统中处理任务中具有较好的容错性。解决了传统方法中检查点设置单一,恢复效率低下的问题,本文主要的工作以及贡献包括:1.基于HDFS分布式文件系统,设计了CLAIMS的底层文件存储系统。数据不再是单一的多文件备份,而是采用k-safe的文件存储方式,将系统查询中的数据表以列存储方式投影多份,并保证原数据表中的每一列至少有k份。每一份列存储投影均被哈希水平切分成多个数据块,每一个数据块大小为64MB。该k-safe数据处理方式,一方面能加速查询时数据的加载数据速度,另一方面在系统出现故障之后可以保证数据的可恢复性,从而大大提高了系统失效时数据恢复效率,为系统容错提供数据保障。2.在容错系统设计中加入了自适应式的心跳检测机制,改进了以往单一的固定频率心跳消息传递机制,从而大大降低了平均发现故障的时间延迟。具体操作上依据实时系统资源状态动态调整集群中各个节点之间消息传递的频率,结合主机的负载变化制定节点直接心跳消息传递的策略。在考虑到集群达到一定规模情况下心跳消息会增加负载的情况下,本文还采用了多播的消息传递方式降低心跳检测造成的数据延迟问题。3.将QoS服务功能应用到CLAIMS系统中来,针对不同的数据查询操作划分不同的执行功能,按照各自功能的标准定义每个阶段的处理方法,将QoS服务质量作为指标加入到容错模块中来,使得故障的部分指标得以量化;同时在代码实现层面采用OpenMPI编程函数库,针对容错特性进行了改进,在消息传递和数据交互的时候采用这种编程模型,提高容错性能。4.提出了动态设置检查点的方法,为每一个查询的执行计划计算出对应设置检查点的消耗模型,基于动态规划的思想从全局最优化出发,通过迭代为每一阶段的操作计算设置检查点的代价,比较当前节点设置检查点所带来的磁盘I/O开销和从底层叶子节点回溯重新执行任务至当前节点的开销,最终为整个执行计划树确定设置检查点的方案,使得整个查询在出错的情况下重新恢复执行的时间最小。上述功能的设计与实现,形成了CLAIMS系统中的容错模块,本文详细叙述了上述功能以及之间的关联关系。通过实验比较,证明了该方法在内存集群计算环境下,与传统单一的容错方案相比,在可靠性和可用性方面具有显著的提升。
其他文献
我国在城镇化发展的关键时期提出构建新型城镇化的战略,并将“以人为本、集约智能、绿色低碳、城乡一体”作为战略目标。在此背景下,营造协调发展、相互助益的城乡区域关系有
共价有机骨架(COFs)是由C、O、N等轻元素利用共价键连接,经热力学控制的可逆聚合形成的一种具有有序多孔结构的新型晶态材料。由于其具有孔道大小可设计、较高的热稳定性和较大的比表面积等特点,近年来在气体储存与分离、多相催化、储能材料和光电材料等方面的应用被广泛的报道。COFs材料目前在光催化合成领域的应用主要集中在一些简单的氧化还原反应,因此开发COFs材料在其它化学反应中的应用具有十分重要的意义
随着世界经济的不断发展,传感器在生产生活中的重要性日益彰显,光纤传感器因其高灵敏度、抗电磁干扰等优良特性而应用广泛。BOTDA技术是光纤传感领域中的一大研究热点,该系统中用于产生扫频信号光的双边带信号源对系统的整体性能至关重要。论文结合BOTDA系统需求,完成了双边带光信号源控制系统的部分软件设计工作,具体研究成果如下:1、结合主控芯片和射频芯片完成了微波源模块,主控芯片通过SPI协议和射频芯片建
近年以云计算为代表的新兴技术已为解决传统IT信息化建设困局找到了突破性的解决方案,以兴业数金和平安科技为代表的金融行业云的成功运营,反映出行业云在共享行业资源、提高
会议
随着自然语言处理相关应用逐渐走向落地,文本分类技术作为其基础技术之一,向来是被广泛研究的对象,提升文本分类的准确率是推进技术落地的重要举措。让计算机来完成文本分类的前提是要使得计算机能够识别文本。文本表示技术就是将文本转换为计算机能够识别的数据。但是在将文本进行转换的过程中会存在信息丢失,从而导致分类有误差,因此,降低文本表示环节中信息的损失也显得至关重要。通过分析当前的文本表示研究现状,发现国内
在国内传统能源生产基地逐渐枯竭,国内经济结构加速转型、国际能源供需体系深刻变化以及外部美欧能源制裁等因素下,俄罗斯基于对其国内外的能源形势变化的把握,提出了东向能源发展战略,并逐步演变成为俄罗斯整体国家能源战略的重要部分。俄罗斯在该战略的指导下,积极地与中日韩三国展开能源合作,并通过在能源贸易和管道建设中的合作,推动该战略取得了较大的进展,提升了俄罗斯在国际能源体系中的能源权力。但由于东向能源发展
大口径厚壁无缝钢管作为大型零部件广泛应用于石油化工、核电能源和国防科工等国家重大项目领域。在P91厚壁钢管日益国产化的同时,针对现有工艺问题以太原科技大学李永堂教授为首的科研团队提出和研究了一种短流程的铸挤成形工艺。而该工艺的技术关键就是将初始铸态组织的空心铸坯通过高温挤变形,得到满足性能要求的锻态组织的厚壁管。因此,深入研究铸态P91合金钢的热变形行为特性和微观组织演变规律,对于获得厚壁管热挤压
随着5G通信技术的到来,滤波器小型化、高性能和高集成度是大势所趋。传统滤波器的阻带信号会反射回系统,对系统造成毁灭性的影响。为了防止传统滤波器的阻带信号反射对系统造成不必要的电磁干扰,提高系统的电磁兼容性和可靠性。本文提出一种无反射滤波器,该无反射滤波器是利用电阻将阻带的信号吸收掉,然后以热能的形式消散掉,不让其反射回系统,因此无反射滤波器也叫吸收式滤波器。集成无源器件(Integrated Pa
肺癌是全世界死亡率最高的癌症之一,使用图像处理技术去研究肺癌诊断有很重要的现实意义。传统的方法是基于肺部CT图像分割,人工肉眼查看肺部CT进行诊断检测。近年来图像处理技术广泛应用于肺癌识别,尤其是深度学习的不断发展,利用深度学习自动识别肺癌将为放射科医生节省大量时间、诊断更加经济实惠。通常检测肺癌的通用方法是先对肺部分割,接下来特征检测识别。本文针对肺部CT图像分割、识别中肺结点区域类型结构复杂多
皮肤癌是一个人类需要克服的重大公共健康问题,全球每年有超过五百万新诊断病例。在2015年,全球黑色素瘤发病率超过35万例子,死亡人数近6万人。尽管死亡率很高,但早期发现时,黑色素瘤存活率超过95%。通常皮肤科医生通过肉眼观察和组织病理学活检的方法对黑色素瘤进行早期的筛查和确诊[1]。但是,即使是有经验的专家仅凭肉眼诊断也存在较高的误诊,导致了很多不必要的病理学活检。病理学活检虽然是诊断金标准,但常