分布式流计算平台上任务调度的关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lxlgqm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,数据处理技术飞速地发展,一些基于数据分析的应用技术也随之大量涌现。并且伴随着各领域中信息采集技术的不断更新,出现了大量实时的非结构化数据,这些实时产生的数据像流水一样进入数据处理系统。如何实时地抓取数据流中有价值的信息,并实时地进行精确计算、得出相应结论至关重要。传统的分布式处理模式不可能实现上述需求,所以,一种全新的分布式流计算处理模式应运而生,这种处理模式以其良好的扩展性、灵活性、易用性受到业界的欢迎。本文设计了一套完整的流计算处理平台,在这个平台上用户可以完全避免集群搭建、平台运维、通信实现的繁琐工作,大大缩短了开发周期。在分布式流计算系统(如云计算等)上,多任务需要同时运行复杂的计算,通常把这些任务分配到多个处理机上去处理,这个过程被称为任务调度。采用不同的任务调度算法对相同的输入数据流进行处理,最终的性能差异非常大。通常在传统的处理模式中,其输入大多都是静态数据,所以任务的执行时间是可预知的。在均衡处理机数目受限的条件下,只要给定一组DAG,经典的HEFT算法就能得到一组高效的调度方案;但是实时流计算平台中的输入是源源不断的数据流,并且数据量的大小是不确定的,最终导致任务的执行时间是不确定的。这也就直接导致了HEFT算法在实际应用环境中,实验结果与预期结果差距较大。在分布式流计算系统里进行工作流任务调度时,如何解决单个任务执行时间的不确定性问题至关重要。由于这种不确定性的存在,静态的工作流任务调度方法将不再可用。因此本文提出一种基于蒙特卡洛的工作流任务调度方法,该方法建立在一种经典的启发式静态工作流任务调度方法(HEFT)基础之上,通过运用一种随机数生成算法,在一定约束条件下大量生成任务执行时间,并结合正态分布、均匀分布模型对任务执行时间进行建模,从而确保了 HEFT算法的可用性;利用HEFT算法,结合随机的任务执行时间,就可以生成大量的调度方案,再从这些调度方案中选出最优的调度方案,并作为最终的输出方案。整个过程通过对随机数生成机制、完工时间阈值的确定、各阶段重复次数的限定、性能评估标准等关键技术的研究,确保了此算法的高效性。通过把这一套全新的任务调度方法应用到“流水行云”平台中,并经过大量的实验以及性能测试,结果表明:本文提出的方法不仅大大缩短了任务的调度时间,显著提升了平台性能,而且此方法还具有非常强的通用性。
其他文献
随着城市的飞速发展,传统卫星导航接收机在日益复杂的城市环境中面临着严峻的挑战。对于穿梭在城市高楼之间的车载卫星导航接收机而言,由于高楼或树木的阻挡,卫星信号频繁地
科技文献的数量呈爆炸性增加,科研知识的演变和进化更加迅捷,难以快速掌握。如何从大量科技文献中快速分辨出具有较高阅读价值的文献成为研究者普遍关注的问题。被引频次是指
人类活动识别是计算机视觉领域中一个热门的研究主题。许多应用如人机交互、智能视频监控、运动视频分析、病人监护系统、智能家居和智能安防系统等都要求对视频序列中的人类
目前,随着互联网的普及,网络学习已经越来越趋于流行化和国际化。现今的大型银行企业,员工数量较多,地域分布较广,每年为了员工培训,会产生大量诸如学费、差旅费等经费。基于
跳跃行为作为金融资产价格运动的重要组成部分,是市场微观结构研究的焦点问题。跳跃现象在股票市场并不罕见,它对波动率估计产生极大的影响,因此研究跳跃行为对资产配置、资
近年来,我国许多传统产业集群的低成本优势逐渐被削弱,产业集群升级问题获得更多国内外学者关注。而就我国传统产业集群的发展现状来看,我国许多地方产业集群的自主创新能力
随着社会经济的飞速发展,互联网已经成为人们工作和学习所必不可少的工具,然而由于其原始的设计存在诸多缺陷,为了从根本上解决传统互联网的许多问题,下一代互联网互联设备国
在软件的开发过程中,缺陷的查找和修复是保证软件质量非常重要的一环。然而,这一过程往往耗费大量的时间和人力。如果能够在软件测试阶段,甚至在每次代码变更结束后,立即预测
背景和目的:MicroRNA(miRNA)是一类大小约22nt的非编码RNAs,通过抑制靶mRNA的翻译或降解靶mRNA在转录后水平调节靶标基因的表达,从而参与细胞增殖、分化、凋亡等过程。有研究
目标跟踪是计算机视觉领域的一块重点内容。随着其它支撑类学科的发展,目标跟踪算法也在不断进步当中。传统的目标跟踪算法往往是通过对目标运动趋势的估计来实现对非快速运