分布式流处理系统D-Argus中流共享和算子放置模块的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:cr15mo3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,数据流已经成为数据存在的一种常见形式,被广泛应用到金融、交通、军事等领域。研究人员设计开发了许多集中式数据流管理系统以及分布式数据流管理系统以处理数据流上的查询。由于集中式数据流管理系统的处理能力有限,分布式数据流管理系统得到了快速发展,尤其是针对广域数据流的处理。而网内查询处理则是分布式数据流管理系统的研究核心。   本文主要研究网内查询处理中过滤算子的放置问题。网络中有很多数据流,包括过滤算子产生的数据流以及数据源产生的数据流。一个查询到来时,既可以使用数据源产生的数据流,也可以使用算子产生的数据流。显然,使用算子产生的数据流有可能降低查询结果到达目的节点的延迟。首先使用基于查询包含的数据流共享算法降低整个网络的延迟,然后对这种方法进行改进并提出了动态调整算法和基于查询合并的数据流共享算法。动态调整算法可以调整网络中查询的放置位置,基于查询合并的数据流共事算法可以将同一节点上的查询进行合并,减少数据流重叠部分的传输。但基于查询合并的数据流共享算法可能引入多余的元组,我们提出了基于查询分割的数据流共享算法来解决这个问题。但是,以上三种方法只优化了网络延迟。在更为通用的覆盖网络中,提出了一种基于模拟退火的算子放置算法来优化节点负载及网络延迟。最后,大量实验表明算法对于降低网络延迟非常有效。
其他文献
二十世纪九十年代以来,互联网逐渐深入到人们日常生活的各个方面,成为不可或缺的一部分。互联网流量识别是互联网流量测量领域的研究热点之一,在提供网络信息、保证服务质量等方
随着信息技术的高速发展和现代战争的需要,多传感器信息融合作为一门新兴交叉学科得到广泛关注。基于信息融合技术的目标识别已成为国内外研究的热点。如何快速、准确地对目
为了追求更高的精度,当前神经网络的研究朝着模型更复杂、训练数据规模更大的方向发展,这导致模型的训练部署更困难、训练时间急剧增长。怎样将大型神经网络模型在多GPU集群环
中文词法分析是中文信息处理的重要基础,汉语是没有自然分割的连续文本,古代汉语更是没有任何边界标志,我们现在所看到的文言文中的标点符号,都是后人为了方便人们阅读而添加的。
随着新兴的人工智能、HPC云、基于NVMe-over-Fabric的分布式存储、实时大数据分析等应用发展,RDMA技术正广泛应用于数据中心。通过传输层的硬件卸载及OS-bypass的数据路径,RDMA
感兴趣区域,ROI(Region Of Interest),一般是指物体的边缘、角点、拐点、纹理较为丰富的区域,而且这部分区域对观察者理解图像的影响较大。基于感兴趣区域的视频压缩优化一直是
近年来,随着移动计算技术和无线通讯技术的快速发展,移动学习作为一种新型的学习模式应运而生。这种能够在任何地点和任何时间利用手持无线通讯设备开展学习的方式满足了人们对
随着无线技术的迅速发展和无线网络应用的不断普及,无线频谱资源的使用日趋频繁,如何有效的解决无线频谱的紧缺的问题是关系到能否突破限制,让无线通信可持续发展的一个关键问题
交通供需不平衡及异常事件频发导致了交通堵塞、能源浪费、环境污染和安全等严峻问题。智能交通系统(ITS)是解决这类问题的重要手段,可以有效的改善交通状况。由于不能对ITS项
传统的三维造型工具适用于精确模型的制作,需要一定的时间才可以掌握。基于自由手绘的草图工具极大地简化了设计,对草图进行模型创建是现阶段计算机图形学方面一个很热的话题,本