分布式流连接系统负载均衡策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:amavis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,越来越多的实时应用需要对大规模实时数据流执行快速并且准确的连接运算,例如股票交易系统,在线广告分析系统等。由于数据流到达速率快,源源不断地产生,传统的连接系统并不能很好满足上述的实时系统的需求。为了满足现有实时系统高性能的需求,现有的一些相关工作提出了流连接系统。为了达到高吞吐和低延时的实时性需求,分布式流连接系统需要使用高效的流数据分发策略来并行地执行复杂的流连接运算。分布式流连接系统主要包含两个组件:分发组件和流连接组件。分发组件负责从数据源接收数据,对数据进行预处理以及将数据分发到流连接组件中的若干个流连接处理单元。流连接处理单元负责对两条流(记为R流和S流)执行流连接运算。流连接组件中所有流连接处理单元会被分为两组,分别对R流和S流元组进行存储,并对另一条流新分发到来的元组与所存储的所有元组进行比对和连接操作。其中,分发组件对数据采取不同的分发策略,那么流连接系统则会有不同的性能表现。现有系统主要使用两种分发策略:随机分发策略与哈希策略。随机分发策略将其中R流(或S流)的每一个元组随机分发到任意一个存储R流(或S流)的处理单元,而同时将S流(或R流)的所有元组广播到所有存储R流(或S流)的处理单元中进行流连接运算。这种简单的策略可能使低选择性的流连接运算执行大量的不相关的连接匹配。哈希分发策略将R流(或S流)中的元组按照键值映射到与键值关联的存储R流(或S流)的处理节点中进行存储,然后再将S流(或R流)的元组按照键值映射到与键值关联的存储R流(或S流)的处理节点中进行连接。相比随机分发策略,哈希分发策略能大量减少连接运算,降低系统总体负载。但是,哈希分发策略会遇到严重的负载不均的问题。这种负载不均是由于元组的键值倾斜分布导致的。数据倾斜分布在实际的应用中非常常见。实验表明负载不均会严重影响系统的性能。为了解决现有流连接系统负载不均问题,提出了一种能感知负载不均的分布式流连接系统——FastJoin。该系统包含一个自主设计的监测器组件,通过监测器组件判断系统是否出现负载不均现象。当负载不均出现时,调用负载迁移策略。负载迁移策略需要选择一部分键值进行迁移,这时会调用一个自主设计的高效键值选择算法——GreedyFit。该算法的作用是选择尽量少的元组进行迁移,从而使系统达到负载均衡。实验使用真实世界的数据。实验结果表明,对比现有的最好的流连接系统,FastJoin可以大大提升在吞吐率以及延时方面的系统性能。
其他文献
超冷原子分子的研究是超冷量子气体领域的一个前沿课题,具有非常重要的理论价值和广阔的应用前景.该研究广泛应用于强相互作用超流、相干分子光学、精密测量、凝聚态物理等领
随着现代科技的发展,公共场合的服务机器人在政策引导和市场吸引下大量涌现,具有为宾客引路功能的引导服务机器人从很大程度上影响着人们的生活方式。引导机器人在执行引路任
云服务器提供了快速便捷的数据存取服务,将数据上传到云端,可减少用户的数据存储和维护开销。为了保护数据隐私,数据拥有者可将数据加密后再上传到云端。但用户无法直接在密
在地产市场竞争日益激烈的环境下,行之有效的履约评价能够更好地帮助地产企业正确、科学地对承包商履约进行评价、选择优质的承包商。履约评价在地产企业管理中起着举足轻重
无标定视觉伺服是近些年的一个热点研究方向。在无标定视觉伺服中一个主要问题是如何求取反映图像空间与机器人操作空间之间映射关系的图像雅可比矩阵(Image Jacobian Matrix
遥感技术和地球物理探测技术在考古领域的应用中各有特点,所形成的考古数据也存在多种类型。然而由于各种探测数据缺少统一的管理和分析平台,给数据之间的交互和综合分析带来
随着信息网络技术的发展,无线传感器网络(Wireless Sensor Network,WSN)在日常生活、农业生产等众多领域得到了广泛的应用,前景十分广阔。WSN是由随机部署在监测区域的传感器节点组成,是一个以数据为中心、自组织的网络。但传感器节点是硬件受限设备,节点能量有限且无法补充,所以减少节点能量消耗,最大限度的延长整个网络的生命周期十分重要。而分簇路由协议作为无线传感器网络中有效的能量优
甲状腺结节作为最常见的甲状腺临床疾病,近年来发病率不断攀升,严重影响着人体健康,对甲状腺结节辅助诊断开展研究极具现实意义。超声检查是甲状腺结节临床诊断的必要检查方
随着5G网络在部分城市的试运行,互联网行业又进入新时代,面临5G网络带来的高爆发流量,现有的网络架构及网络规模的在数据转发存储的性能上已经出现了瓶颈。软件定义网络架构的出现,实现了数据平面与控制平面的分离,集中式的控制管理,开放式的资源统一调配。多粒度光交换网络融入软件定义网络架构中,实现软件定义网络平缓的向软件定义光网络发展。首先,该文在计算链路权重的过程中,引入数学概率模型,使用光码链路容量类
知识图谱技术的快速发展使得海量的知识和信息能够被结构化地存储和查询,这使得人们搜索信息的途径不再局限于传统基于字符关键词匹配的搜索引擎,知识库问答技术为此提供了新