分布式流处理系统的数据分区算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:xiongll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,挖掘海量数据流的实时价值对于各行各业来说越来越重要。这类高速产生的流式数据通常具有实时性、动态性及持续性等特征,并且人们很难预测其未来的分布特性。分布式流处理系统可以满足企业人员处理实时数据流的需求。为了提高处理数据流的吞吐量,分布式流处理系统会利用流应用中的数据并行性。然而,倾斜分布的数据流常常会导致算子的并行实例之间的负载分配不均衡。其中,高负载的节点会拖累系统的处理速度、降低系统性能,从而成为整个系统的瓶颈。低负载的节点则会由于负载不饱和而降低系统的资源利用率。通过对分布式流处理系统的负载不均衡问题进行分析研究,本文首先试图降低负载不平衡性的同时使键值分离的开销尽可能小,提出了一个基于键值分离的数据分区算法Holistic。Holistic算法采用了路由表和哈希函数相结合的混合路由方法。对于低频键值,Holistic算法使用哈希函数进行映射;对于高频键值,Holistic算法根据当前的局部负载不平衡状况来确定目标节点的选择范围。通过区别对待数据流中的高低频键值,Holistic算法不仅路由决策迅速,而且始终使全局负载不平衡性在较低范围内,与此同时也可使键值分离的程度尽可能低。另一方面,本文通过分析重平衡负载的被动式方法的诸多不足,提出了一个基于状态迁移的在线数据流分区方法OKG(Online Key Grouping)。该方法将三个组件模拟成有限状态机的形式周期性地连续执行,从而可以适应实时流处理系统的连续处理模型。每个周期内,OKG采取了先构造分区函数再分发数据元组的主动式方式避免了被动式方法的不足。OKG构造的分区函数同样由路由表和哈希函数组成以降低路由表的大小。OKG只对高频键值和其频次使用类似于最短处理时间优先算法的方式进行构造,避免了低频键值参与到随后的键值状态迁移过程中,从而最小化迁移开销。实验表明,本文提出的基于键值分离的Holistic数据流分区算法在不同倾斜度和并行度条件下都有稳定的表现。相比于现有的算法,Holistic算法在获得相近的负载不平衡性的同时,不仅路由时间降低了大约85%,而且键值复制度降低了大约20%。本文提出的基于状态迁移的在线数据分发方法OKG则克服了被动式和离线方法的不足之处,不仅具备主动式方法的诸多优势还可以并行执行。相比于现有的方法,OKG在最大并行度和最高倾斜度时的负载不平衡比例分别降低了87%和89%,并且数据负载分配结果更加均匀。
其他文献
随着计算机科学的发展,数字图像和视频成为人类获取外界信息的主要来源,而在现实世界的夜晚或者其他低光条件下,我们获得的图像和视频质量会降低,这包括亮度低、对比度低、噪声大等特点.这些图像和视频质量的降低将会直接影响到监控安防、夜间行车和生物医学等领域的发展.因此,随着计算机视觉等研究领域的不断深入,图像处理技术备受重视,其中低光图像增强就是计算机视觉的一项重要课题.对于一些经典的低光图像增强算法,参
数字图像处理近年来得到了极大的重视和长足的发展,并在科学研究、医疗卫生、通信方面得到了广泛的应用.在实际图像形成、传输的过程中,由于各种干扰因素的存在图片会受到噪声的污染.这严重影响了人们对数字图像的认识,所以图像复原在图像处理中十分重要.本文主要针对脉冲噪声(特别是椒盐噪声和随机值脉冲噪声),提出基于鲁棒分形图像编码的原始对偶算法和低秩加权核范数算法,数值实验也说明了这两种算法的有效性.具体研究
大数据时代,聚类分析是探索性数据分析不可或缺的工具.与分类相异,聚类是在无监督环境下进行的.在聚类分析中,人们通常认为彼此接近的点往往属于同一个类别,这就是所谓的聚类假设.通常情况下,同一类中的模式比不同类中的模式相似性更大.当我们把研究对象数字化为多维空间当中的点时,模式之间的相似性可转化为对应数据点之间的邻近度(或相似系数).根据聚类的这些特点,本学位论文提出了一种基于类内邻近度的聚类算法框架
在真实场景中,由于被拍摄物体快速运动、拍摄者手抖等各种原因,使得运动模糊成为最常见的模糊类型之一,运动模糊图像复原技术成为了一大研究热点。近几年,随着计算机处理速度和存储能力的提升,在运动模糊图像复原这一任务中,利用深度学习对模糊图像进行复原的方法发展迅速,该类方法使用卷积神经网络自动估计模糊核,显著提高了复原效果。主流的运动模糊图像复原算法均需要使用成对的数据集进行训练,而获取成对的数据集往往比
图像分割是按照不同特征将图像划分成互不重叠、具有独特性质的各个区域,从而提取感兴趣目标的位置或者边界的过程.这一技术是进一步图像分析、理解的基础和关键,被广泛应用于多个领域,特别是在图像处理领域占据着重要的地位.迄今为止,上千种分割方法已被提出,通常都是针对特定问题的图像分割方法,具有一定的针对性和局限性,无法形成一个适合所有类型图像通用的分割算法.基于变分水平集方法和基于区域的活动轮廓分割方法在
背景:人工全膝关节置换术(Total knee arthroplasty,TKA)中在使用旋转平台假体(Rotating-platform prosthesis,RP)时,对后交叉韧带的不同处理方式中有两种假体设计分别对应两种手术方式,其中一种是后交叉韧带保留型旋转平台假体(Posterior cruciate-retaining rotating-platform prosthesis,CR-R
量子计算是依赖于量子力学原理来获得解的一种新型计算模型,由于量子计算的并行计算能力,量子计算在解决某些特定问题时,它比经典计算的效率要高。Grover量子搜索算法是量子算法中具有广泛应用前景的一种算法,算法可以在量子线路复杂度为/O(2n/2)的情况下求解一个规模为2n的搜索问题。本文从降低Grover算法的量子线路复杂度的角度出发,提出两种改进的算法,并将改进的算法应用到3-SAT问题上。1.为
随着信息化和数字化的快速发展,人们对信息传播质量的要求日益提高,作为传播最为广泛的媒体之一,数字图像的成像质量也成为了各行各业关注的焦点。然而,成像硬件、成像环境以及传输技术等条件的限制往往会降低图像的分辨率,导致图像信息的丢失。因此,如何将低分辨率图像通过算法重建为高分辨率图像始终是图像处理以及计算机视觉领域的一个热门研究方向。近几年利用深度学习算法进行图像超分辨率重建的研究逐渐增多,同时也取得
单目图像的三维人体姿态估计是计算机视觉中一项基本但富有挑战的任务,其目的是检测单目图像中的人体姿态并将其投影到三维空间中。随着科学技术的快速发展,三维视觉已成为人工智能研究和应用的热门领域,越来越多的专家学者投入到该领域的探索中。三维人体姿态估计精度一方面受图像外部遮挡、自遮挡和光线等因素影响,另一方面人体结构的特殊性也会给该问题的解决带来诸多困难。并且,如何将二维空间提升到三维空间本身是一个复杂
随着大数据、人工智能的高速发展,大数据系统平台数据量的规模呈爆炸式增长,庞大的数据量对数据存储和网络传输提出了不小的挑战,为了应对这一系列挑战,必须保证大数据平台数据存储中心的高效率存储和网络传输的高吞吐量,对平台上待存储的数据先进行压缩后再处理是应对这一挑战的有效手段,Gzip压缩算法因其压缩率高、压缩速度快被广泛应用于数据压缩领域。传统的Gzip软件压缩虽然可以实现数据压缩,但会占用通用处理器