分布式图并行计算框架的调度分析与优化

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lisadandan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,基于大规模数据的信息分析和数据挖掘技术逐渐适用于众多领域。对于大规模数据处理的编程模型以及计算效率的需求一直是研究领域的热点问题之一。其中,数据并行(Data-Parallel)的处理模型(如Map-Reduce等分布式编程框架)的提出与优化,在过去的几年中为大规模数据的并行处理提供了重要的支持;然而,随着搜索与分析等需求的语义化,数据分析的应用场景也不断增多,机器学习与数据挖掘技术的兴起,也使得分布式应用的算法趋向于复杂化,主要体现为计算的过程在单元数据的顺序计算的基础上增加了迭代性与关联性。因此,图并行(Graph-Parallel)的处理模型被提出,并逐渐成为大数据时代的下一个研究重点。大规模图并行处理模型的设计本质上具有迭代与收敛的计算特性:输入数据以一个单元的顶点结构为中心,单元数据之间的关联性被抽象为图结构中的边,每个顶点根据边的依赖关系不断进行信息传递与迭代计算,直到达到平衡的收敛状态。由于图并行处理模式的这种计算特性,在实现时具有同步(Sync)与异步(Async)两种不同的迭代调度模式。而这两种调度模式在顶点计算的调度顺序、调度层的管理结构以及硬件和网络资源的利用率等方面都具有显著的差异。然而,现阶段基于这两种调度模式的比较与分析的相关研究仍然十分稀缺,在实际的图并行处理应用的开发中,图计算编程人员通常需要根据经验选择同步或异步调度模式其中之一。这不仅要求编程人员对于图并行编程框架的底层实现具有深入的理解,也使得图并行应用的计算性能无法得到最优的保障。基于这些问题,本文主要进行了以下几个方面的研究:首先,我们基于同步和异步两种调度模式的经典实现框架与一系列典型的图并行计算的应用,创新性地对这两种调度模式的特性和性能表现进行了深入的对比分析与归纳。我们的研究通过详细的性能测试,展示了这两种调度模式在不同的图并行处理算法、不同的图划分算法、不同的计算执行阶段、不同的输入数据以及不同的集群性能配置等情况下,具有显著的性能表现差异。同时,我们归纳和总结了不同情况下调度模式选择的倾向性,并发现了潜在的性能提升空间。其次,本文提出了Hsync模式——一种自适应切换于同步与异步调度方式之间的启发式的图并行处理调度模式,从而尝试达到图并行处理应用在性能表现上的最优化。Hsync模式会在应用的计算过程中持续地收集执行时的系统状态,结合启发式的判断策略,预测同步与异步两种调度方式的执行性能,判断是否应该进行状态转换从而切换到一个更优的调度方式继续执行。本文的研究在经典的分布式图并行计算框架——PowerGraph框架的基础上进行了修改和扩展,实现了支持Hsync调度模式的PowerSwitch系统。该实现的核心主要包括了调度方式转换的支持模块,以及用于预测两种方式的调度性能的在线和线下的采样分析模块,并归纳总结了一系列的启发式判断规则。此外,我们的研究基于一个48个节点的分布式集群配置,对于PowerSwitch系统进行了详细的性能评测。评测显示,我们系统的计算性能优于同配置下的同步或异步的单一调度模式。通过调度方式的转换,PowerSwitch系统在相较于同步或异步中最优的调度模式的基础上,能够额外获得9%到73%的性能提升。
其他文献
引言茶叶是我国主要经济作物之一。我国的茶叶种植面积在2017年达到约300万公顷,种植面积占到全球茶园面积的约63%。我国茶园面积和产量都是世界第一,茶叶产量占全球高档茶叶
发现问题提出问题的能力非常重要,它与培养创造型人才密切相关.本文研究:怎样衡量发现问题提出问题能力的高低?我们认为可以从发现问题提出问题的敏锐性、广阔性、深刻性、批
期刊
通过对莱芜市钢铁业出口发展存在的问题进行分析,提出了有关政府和企业对钢铁行业出口的对策,从而促进钢铁业出口的全面发展。
美国时间2017年1月8日,iCAN-CES Summit在拉斯维加斯Venetian Bellini2003&Bellini 2004展厅顺利举行,众多科技界人士纷纷出席。同时国际消费电子学会(IEEE)、北美华人工程师协会(CIE)、美国文通国际创新合作中心(UCICIC)关于2017年在北京举办G-iCAN全球创新大会达成初步合作意向。且国内外高校共计展示了十余个创新项目。
作为水利工程施工重要一环,高质量的工程概预算编制会对工程施工产生十分积极的影响。为提高自身竞争实力,保证企业在水利施工行业中的地位与声誉,各施工单位开始加强了对工
随着物联网的发展与现场移动视频、增强和虚拟现实的应用,5G技术在移动方面与整合网络方面都具有显著的相关性。因此更广泛、可扩展的可编程性和自动化架构转换将会涌现,同时也
期刊
天津市地热资源开发利用中存在的问题:地热资源利用率低,管理水平不高;地热开采布局不合理;地热回灌量严重偏低,有待调整提高;地热资源研究落后于开发;地热应用领域较窄。加
探究性是创新教育的主要特征之一.在教学活动中,如果没有对问题的探究,就不可能有学生主动积极的参与,不可能有学生的独立思考与相互之间的思维碰撞而迸发出智慧的火花,学生
期刊
资源型企业海外投资存在着巨大风险,企业在不断拓展自己版图的同时,也要定期结合各方面影响因素对海外投资项目进行分析、排序,慎重部署投资退出时机及方式。退出机制影响因素:宏
针对物联网安全课程《密码学算法实验》教学中存在的问题,分析目前《密码学算法实验》教学中采用的软件所存在的弊病,提出以Python语言为实验编程工具的观点。