流处理系统运行时感知调度研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qichen1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的数据被实时流处理。流处理应用在处理数据的过程中需要保持尽可能低的处理延迟,才能充分利用数据的价值。然而,流处理应用在处理数据的过程中存在不稳定的计算资源供给、不确定的数据输入率等问题,导致流处理应用的任务处理步调不一致,需要合理的调度以加速处理。但是,传统的并行与分布式系统负载均衡、调度技术并不适用于流处理系统,而且,当前的流处理系统均衡方法也不能有效地调度任务以解决数据处理过程存在的问题,亟需寻求新的调度方法。针对数据处理过程中存在的问题,结合流处理系统的特性,提出并实现了运行时感知调度方案,以达到动态调整任务部署保证低延迟的目的。首先,提出节点性价比评测方法,感知运行环境变化对节点处理数据效率的影响,为调度提供依据;其次,在对常用调度算法研究的基础上,提出基于节点性价比的调度算法,依据节点处理效率在集群上重新调度任务,使节点上的任务计算量与节点计算能力相匹配,同时尽可能减少节点间的任务迁移;再次,改进指数平滑预测方法,使其适应流处理特点,预测任务调度方案是否可行;最后,重新部署任务,重部署结果是任务被原节点运行,或被性能更好节点运行。调度方案与流处理系统Storm高度集成,并重用Storm模块,减少额外开销。相同的实验条件下,将运行时感知调度方案与Storm默认调度方案进行了对比。实验表明,相比于默认调度方案,运行时感知调度方案使算子平均处理延迟降低29.6%,使节点间最大任务处理延迟差降低47.4%。此外,它处理相同的数据量时消耗更少的计算资源。
其他文献
可满足性问题(Satisfiability problem问题,简称SAT问题)是第一个被证明的NPC(Non-deterministic Polynomial Complete)问题,它是计算复杂性理论的奠基石,是计算机科学与人工
随着计算机技术和网络的飞速发展,数据库的应用十分广泛,深入到各个领域,越来越多的企事业单位、科研机构等将自己的数据库连接到Internet上,但随之而来产生了数据的安全问题。各
在数据集成环境中,一致性查询应答技术是一项管理非一致性数据的有效技术,它能在保持源数据不变的条件下,查询到要求的一致性查询结果CQA(consistent query answer)。目前CQA的
随着互联网的迅速发展,在线图片的数量呈现爆炸性的增长,尤其在最近移动互联网端的迅猛发展,图片作为其信息呈现的载体逐渐火爆。随着大量图片资源的涌现,在大规模的图像规模
随着医疗技术和嵌入式技术的发展与进步,家庭健康监护系统的使用逐渐普及。家庭健康监护系统是缓解目前老年人对有限的公共健康服务基础设施依赖,并为其提供更为长期有效的监护
为了保证网络资源的安全可控,网络接入控制已经成为当前主要的安全环节。其中,采用网络身份鉴别协议EAP同PKI技术相结合,成为了集通用、安全、高性价比于一身的做法。目前业
本文以基于控制流图的数据流分析技术为基础,研究C/C++程序中指针引用的合法性检查。首先分析指针非法引用的各种表现形式和产生原因,构建具体的检查规则;然后以控制流图为数据
随着网络技术的快速发展,包含有文本与图像等数据的多模态文档大规模地出现在人们的日常生活中。在信息的世界中,这些不同模态的数据资源可以无形地提升感觉器官接受知识的能力
随着社交网络图片分享应用的流行,社交网络服务提供商存储和传输大量图片数据的挑战更加艰难。为了有效的提升数据传输性能,服务提供商一般部署分布式缓存来解决问题。影响分
随着人类社会从以控制为出发点的IT时代迈向以激活生产力为目的DT(data technology)时代,越来越多的企业意识到数据背后的巨大价值,纷纷投入大量的资金和人才推动大数据基础