分布式流数据处理系统容错问题研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户：syscom

【摘要】

：

随着大规模流数据处理和分析技术的快速发展,近年来分布式流处理系统已被公认为解决大规模数据流问题的有效方法。因其拥有很强的并行处理能力和系统可扩展性,成为广受关注的

【作者】

：

庄园

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

容错分布式流数据处理上游备份恢复延迟最优检查点间隔

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大规模流数据处理和分析技术的快速发展,近年来分布式流处理系统已被公认为解决大规模数据流问题的有效方法。因其拥有很强的并行处理能力和系统可扩展性,成为广受关注的新型分布式系统。随着分布式系统规模不断扩展,系统故障率攀升,可靠性问题加剧。生产环境的数据处理集群已突破万节点级别例如Google和Facebook等,此规模的分布式系统每天产生数个节点错误。因此,故障容错成为分布式流处理系统中至关重要的问题。分布式流处理系统迫切需要完善的故障容错支撑,主要有三方面原因。第一,流数据one pass的处理模式,导致珍贵的信息将在故障中永久性丢失,造成无法挽回的损失。流处理系统对容错开销和延迟有严格限制。第二,新的弹性流处理系统能满足流处理中无缝适应负载变化的要求,但也引入了容错问题的新挑战。第三,流数据负载不断变化,现有静态容错策略难以适应,引起不必要的运行开销,从而导致较低的节点级处理效率。围绕上述三个方面,本文的具体工作和主要贡献包括:(1)提出一种支持分布式流处理的低开销容错机制以及相关协议。所提出的机制和协议面向分布式流数据处理的实际容错需求,以实时流处理模型为基础,构建检查点异步更新机制和备份数据精准删除机制,支持低延迟和低开销的故障容错。实现一个支持容错的分布式流处理系统实时系统模型SPATE,具备较好的鲁棒性和低通信复杂度。(2)提出一种支持弹性流数据处理的在线调整容错机制。针对分布式流处理的弹性扩展需求,提出了一种高效灵活的容错机制,可以实现在线备份调整,以适应运行节点的自动扩展,包括数据备份重新分区和动态检查点更新。通过抽象化定义弹性数据备份单元(Elastic Data Slice,EDS),新的上游备份协议保证了恢复的一致性。在自动扩展场景下,故障节点从自动缩放后的状态重新启动系统,从而避免了高恢复延迟。在SPATE系统原型上对提出的容错机制进行验证,结果表明它可以有效地支持流处理的自动并行化。(3)提出一种分布式流处理的负载感知最佳检查点间隔模型。面向流数据的动态变化,提出一种新的负载感知最佳检查点间隔(Dynamic Optimal Checkpoint Interval,DOCI)模型,证明了在给定时间段它最大化节点处理效率。同时给出了一种在线最佳检查点间隔(Optimal Checkpoint Interval,OCI)的调整算法,以适应实时工作负载的波动变化。通过模拟实验,验证了DOCI模型的有效性和在线OCI调整算法的效率。与现有的容错方法相比,DOCI可将系统效率提高32%。

其他文献

橡胶带式真空过滤机在NaY分子筛水洗过程中应用

对固定室式橡胶带式滤机（橡胶带式滤机）在NaY分子筛水洗过程中的带机真空度、水洗水量、滤饼厚度进行了理论分析和优化。经过优化后,橡胶带式滤机用于NaY型分子筛的水洗获得了

期刊

橡胶带式滤机NaY分子筛过滤

基于非支配遗传算法的自动化仓库动态货位优化

针对存有随机数量货物的机床零部件自动化立体仓库（AS/RS）中存在的货位规划难题,提出了一种基于动态的仓储模式与Pareto遗传算法的AS/RS货位优化方法。该方法以能耗最低和效率

期刊

自动化立体仓库货位动态分配多目标优化遗传算法

中国农村能源问题

<正>中国农村能源问题之一:农村能源状况的变迁改革开放前夜的农村能源1978年秋季的一个傍晚,我在所就读的煤炭子弟学校教室里的灯光下写作业。空荡的教室里只有我一个人,其

会议

中国足球后备人才培养体系的研究——以新疆地区为个案

通过访谈、调研、实地走访及问卷调查等方法来对新疆体育学院老师、学生、足球成员等展开调查,探讨新疆足球后备人员选拔及训练中遇到的主要问题,提出针对性解决对策,以提升

期刊

足球人才选拔训练

双膦酸盐治疗股骨非典型性骨折的研究进展

骨质疏松症为一种有较高发病率和死亡率的病症,会导致患者骨折风险增加。双膦酸盐已在许多大型临床试验中被证明可降低骨质疏松性骨折的风险,特别是阿仑膦酸钠已广泛成功地用

期刊

骨质疏松症双膦酸盐股骨骨折

酵子自发馒头粉的开发与研究

自发粉作为一种方便的制作馒头的食料,受到了消费者的喜爱和欢迎,但其口感和风味是它的一个缺点。酵子制作的馒头风味十足、口感好、有弹性,但其因制作工序的繁琐不能保证制

学位

酵子馒头自发粉品质保质期

基于安卓平台的全景图像拼接研究与实现

图像拼接是指是将多张具有重叠区域的图像(可能是不同时间、不同视角获得的)拼成一幅的无缝图像。全景图像拼接是数字图像处理、计算机视觉和虚拟现实领域的热点研究问题之一

学位

图像拼接特征点检测单应性矩阵开源计算机视觉库安卓系统

面向多源异构数据的矩阵分解算法研究及应用

矩阵分解算法因其高效、易于实现、可扩展性强等优点在机器学习中得到了广泛应用。同时,由于数据采集方式越来越多样化,使得大量的多源异构数据能够被轻易获取。例如,在图像

学位

矩阵分解多源异构数据无监督学习多核学习深度学习

高级氧化对饮用水中卤代苯醌的去除特性及机理研究

近年来,人们生活、生产水平持续提高,生活污水与工业废水排放不断增加,部分废水直接排入河流,最终污染饮用水源。为提高饮用水微生物安全性,需投加氯、氯胺、二氧化氯和臭氧等消毒剂对饮用水进行消毒,但这些消毒剂与水中的有机物会生成消毒副产物(DBPs)。卤代苯醌(HBQs)是一类新型未受控的DBPs,近几年在饮用水中的检出频率较高,虽然其含量仅为ng/L级,但其毒性要远高于常规DBPs,对饮用水安全有巨大

学位

饮用水卤代苯醌(HBQs)26-二氯-14-苯醌(DCBQ)高级氧化技术UV/H2O2/O3技术

让优秀传统文化“活”起来

在今年全国两会“部长通道”上，国家文物局有关负责同志透露了这样一组数据：最近三年，每年入博物馆的参观人数增量都在一亿左右，今年春节假期期间博物馆人气爆棚，7天假期4.15亿旅

报纸

分布式流数据处理系统容错问题研究

与本文相关的学术论文