面向MapReduce的工作流扩展与执行优化技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:you3880066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于易用性和良好的扩展性,google提出的MapReduce编程模型被广泛应用于各类大规模数据处理和分析项目中。在实际应用中,一个分析项目往往需要分解成多个MapReduce作业,且这些计算作业和其之间的数据依赖关系共同组成了复杂的计算工作流。   现有的面向MapReduce的工作流平台在支持含有迭代计算的MapReduce工作流时存在一些不足。首先,现有工作流描述方法不能描述含有迭代计算的工作流。其次,现有工作流作业调度机制对工作流执行优化问题考虑较少。再次,现有MapReduce工作流平台依靠分布式文件系统实现作业间数据传递,这样,作业间的计算并行性就无法得以实现,从而影响到资源的利用率和工作流的执行效率。   基于以上现有工作流平台的不足之处,本文旨在完善工作流描述方法,研究含有迭代计算的MapReduce工作流的解析和调度方法,以及工作流中作业间数据传递机制等执行优化技术。   本文主要工作总结如下:   1.提出扩展的MapReduce工作流描述语言。该语言提出决策节点和决策类的概念以支持用户定义带有迭代计算的工作流,并能够指定迭代终止条件,以及循环结束前后的数据流向。   2.提出一种迭代消解算法,用于自动化解析和调度带有迭代计算的工作流。这种迭代消解算法主要思想是根据决策节点的决策结果而动态寻找当前的极大DAG子工作流。   3.提出DAG工作流调度优化策略。这种策略包括DAG工作流分组策略和作业节点有序组调度和映射策略。前者使得没有数据依赖关系的作业得以并行提交。后者则是根据负载均衡,数据依赖任务邻近化原则,针对迭代计算静态数据优化等来对作业节点中的任务进行映射。后者和作业间数据传递机制共同达到提高作业间执行并行化的效果。实验表明分组算法能够缩短了工作流总体执行时间大约10%-20%。   4.提出作业间的分片推式数据传递。这种数据传递机制下,源节点任务一边计算一边周期性的将数据分片的推送给目的节点,目的节点任务读取先收取到数据分片并以后立刻开始计算。这种数据传递机制使得有数据依赖关系的任务的执行得以并行化,从而使得依赖作业的执行得以并行化。实验表明作业调度和映射策略与作业间推式数据传递机制能够缩短工作流总体执行时间大约20%-60%。
其他文献
传统的IT系统管理只是强调对IT基础设施的监控管理,而未考虑与这些设施关联的上层服务。基于服务的管理方式将上层服务与底层基础设施关联起来,确保在服务的关键流程被中断或用
群是近年来即时通信平台中日益流行的概念,她比普通的好友分组具有更多的含义,更丰富的功能。用户可以在群内相互交流意见,共享资源,开展集体活动,协同办公。服务器运营商可以利用
近年来,GPU(Graphic Processing Unit)并行加速技术成为解决高复杂度计算问题的重要手段,特别是2007年NVIDIA公司的CUDA(Compute Unified Device Architecture)平台推出后,对多
人类对超级计算的性能追求从未止步。计算机Top500的统计结果表明,从1993年到2010年,超级计算机的性能一直保持每3年提升一个量级的速度。超并行处理(HyperParallel Ptocessing
改善无线Mesh网吞吐量是当前无线Mesh网研究中的关键问题。随着无线电技术的发展,无线接口已逐渐具备频率捷变的特性,即无线接口能在短时间内动态地重配置通信信道的中心频率与
群机器人是典型的群体智能系统,主要研究一群能力相对有限的自主移动机器人如何在有限感知情况下,通过局部交互机制涌现出群体智能行为来合作完成相对复杂的规定任务。群机器
随着集成电路制造和设计技术的不断进步,芯片中晶体管的数目以指数性增长,这导致电路的测试数据量和测试时间急剧增加,测试成本显著上升。测试压缩技术在保障测试质量的前提下,能
近年来,辅助盲人使用计算机的软硬件技术取得了长足的进展,盲人使用计算机已经越来越方便。然而,还是有一些因素使得我国盲人无法和明眼人一样熟练便捷的使用计算机,其中,输入汉字
随着计算机和网络技术的迅猛发展,传统的工业生产正逐渐向以计算机为主导的自动化控制生产转变。在煤炭行业,发展以计算机自动化控制为核心的采煤工艺和监控技术,是近年来煤
“存储墙”问题一直是制约处理器性能的关键瓶颈,计算与存储的速度鸿沟导致CPU的运算能力因为需要等待存储器的数据而大量虚耗。在片上多核的处理器环境中,多个处理器核对共享