分布式数据流系统中负载均衡技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:xiaoyezi422
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对大数据潜在价值的重视,数据分析的实时性在实际应用中发挥着越来越重要的作用。实时流式大数据的典型代表如3G/4G通信流数据、网络监控数据、传感器数据等。Twitter的推文产生速度为10万条/分钟;上海电信客户数据到达速度200万条/分钟;目前国内最大的太阳光学望远镜在色球通道下能够达到1GB/分钟的高速采集速率;浙江省台州市部署城道重点车辆动态监管系统采集机动车号牌与行车轨迹的速率可达2.4亿条/秒。这类数据通常具有持续性、无序性、数据分布可变性、数据规模不可预知性等特征,它们同时存在一定的生命周期,其数据价值随着时间的推移逐渐变低。传统数据库技术不能满足此类动态大规模数据存储和及时服务反馈的需求,从而产生了分布式数据流处理引擎(DSPE,Distributed Stream Processing Engine)。流式计算通常架构于大规模集群或者云平台之上,计算任务以拓扑的形式部署到分布式节点,进行连续多阶段地处理,即每一阶段的输出可能会成为下一阶段的输入。现有研究工作大多关注如何从系统架构层出发进行优化处理进而提高计算效率,达到实时处理的目的,其中包括数据分布式文件存储、分布式拓扑定义以及内存数据库技术探索等。尽管一些研究内容已融入实时处理系统且已投入商业应用,但是当前的分布式流数据处理平台还存在以下三个方面难题:1)任务的高吞吐、低延时自适应保障算法匮乏。数据倾斜(Data Skew)是现实应用中普遍存在的现象,且数据分布变化具有突发性。诸如通信数据忙闲时、特殊事件发生及电商促销等均在数据量及数据分布上表现出了动态性。在这种情况下,如何保障系统吞吐量和处理延时的稳定性是一个难题;2)敏捷的系统扩展能力不够。企业需要从数据约减(Scale-down)、硬件升级(Scale-up)、以及系统规模扩大(Scale-out)三个方面来应对数据规模持续增长的问题。然而,由于硬件发展的速度已经远远落后于数据规模的增长速度,所以实现系统的非阻塞式敏捷横向扩展是保证实时处理系统可用性的关键技术之一;3)可用性保障策略是分布式实时处理系统的难题。现实应用中的系统故障往往体现在集群中部分节点的失效,例如Google公司2000台机器的集群,故障机器每天超过10台;Synergy分布式流式计算系统的业务运行统计显示,机器故障率超过15%;IBM的数据流处理系统S在一个月内发生了 69次重大节点故障。集群中运算节点的失效导致了运算的不完整性,而实时处理要求高效恢复,这也是数据流系统面临的难点之一。与批量的静态数据处理相比,数据流处理系统面对实时且未知的数据需具备弹性的处理架构、低延时的处理性能及高效的容错方案。正如2014年图灵奖获得者Michael Stonebraker所言,实时数据流处理系统应该具备快速处理到达数据、低延时地输出处理结果、计算以并行且可扩容的方式进行、计算资源自适应于应用的需求、保证数据安全及可用性等。因此,本文通过研究分布式并行数据流处理系统中制约处理性能的负载倾斜问题、数据并行节点处理架构对数据连接操作的影响及保证数据流处理高可用的容错机制缺陷,旨在通过充分利用集群中的各种硬件资源来构建一个高性能且高可靠性的分布式并行数据流处理系统。论文主要贡献概括如下:1.分析数据倾斜在分布式并行数据流处理系统中的性能影响,提出分布式并行数据流处理系统中基于key操作的均衡调整方案。数据流的拓扑结构往往以key为粒度路由分发数据至下游处理节点。对于基于key的操作,以key为单位粒度的均衡调整能够最大限度地保持基于key操作的语义,但调整单位粒度大,通常均衡性不够好。同时将节点的负载调整至均衡负载阈值是一维装箱的NP-Hard问题。本文在兼顾CPU、内存及网络资源开销的前提下,提出了一种轻量级的均衡调整方案。另外,为了应对倾斜度较高的负载分布,本文进一步提出基于key的按需拆分、尽量合并的方法,使系统既能达到负载均衡,又能减少细粒度均衡所带来的额外代价。2.通过组织并行处理单元的架构,有效地降低分布式并行数据流处理系统中连接操作的代价。连接操作要求系统根据连接谓词的操作语义将数据按照一定的规则聚集在一起。然而,按照传统基于key划分的路由方案势必会带来大量的广播元组操作,在非等值连接操作中表现尤为突出,使得分布式并行数据流处理系统对网络及内存需求巨大。本文采用连接矩阵模型,通过快速制定最优矩阵架构及迁移计划,从而减少由数据动态性带来的系统资源开销。此外,本文继续探索了不规则矩阵的生成方法,在保证处理结果正确性的前提下,进一步降低系统资源代价。3.探讨了在保证数据恢复时效性的前提下,节省系统资源开销的分布式并行数据流处理系统容错策略。系统的容错机制是系统连续正常运行的基本保障。容错主要通过备份的途径实现,不同的应用对容错的恢复延时要求不同,难点在于如何处理容错的精确性与恢复延时的反比关系。本文融合了均衡与容错两个方面,使系统既能保持高性能的均衡状态,又能够具备低延时恢复特性。综上所述,本文对分布式并行数据流处理系统中负载均衡的分析,分别从基于key操作的均衡策略、在负载均衡的矩阵模型下的连接操作与系统容错的角度,探讨出保证实时处理系统高性能的方案:通过对已有研究成果的调查分析,给出相关技术点的理论支撑;通过在标准测试集和真实数据集上大量的实验及相关技术的对比测试,全面地验证了提出方法的正确性和有效性。
其他文献
中小企业在西安的国民经济体系中占据了重要地位,它的发展备受人们关注,而发展中小企业的根本在于处理好它的融资问题。中小企业经营困难、规模小、利润率低、发展不稳定、信
在建立“刘完素临床经验数据库及其管理系统”的基础上 ,将《黄帝素问宣明论方》运用白术的经验进行了系统分析。其广泛应用于厥证、痹证、内痈、风热上攻头面而致昏眩、湿病
民国时期是我国急剧转型的特定历史阶段,呈现出由传统社会向近现代社会、农业社会向工业社会转型的双重特点。这种社会转型不仅体现在政治、经济、文化等社会生活的各个领域,
《三国演义》和《封神演义》是明代诞生的两部长篇小说,两部作品都取材于历史,且都以“演义”命名,但创作模式、写作手法却有极大的不同。《三国演义》是历史演义的代表,其特
随着社会经济的快速发展,城市居民数量急速增加,给城乡垃圾处理工作带来了巨大挑战。2013年国务院在《循环经济发展战略及近期行动计划》中明确指出,中国计划于2015年完成先
本文从中国经济发展宏观数据入手,通过比较劳动生产率、二元对比系数和二元反差指数,分析了中国二元经济结构现状及演进过程。认为中国二元经济结构明显,并且呈现区域二元化
新型农村金融机构制度供给是我国农村金融改革的重大举措,政策运行以来政策效应不断发挥。本文从政策目标、实施主体、政策效果等传导机制角度,分析新型农村金融机构政策效应
村务监督委员会是推进基层民主政治的又一创举,填补了农村权力运作中缺失的监督环节。但在实践过程中,普遍存在的虚置现象严重扭曲了制度设计的初衷,限制了其监督作用的发挥
<正>目的对急诊昏迷患者的病因进行统计分析,探讨早期诊断及处理方法,总结抢救经验,提高分诊效率及抢救成功率。方法收集整理2013年1月至2014年5月我院急诊科326例急诊昏迷患
会议