异构集群大规模数据处理的编程环境

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gauxten01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和物联网时代的相继开启,我们已于不觉间置身于“大数据”时代。为充分挖掘这些数据的价值,种类繁多的数据分析技术应运而生,且不同应用的数据处理模式大相庭径。与此同时,各种处理器飞速发展,大规模集群中逐渐出现了适用于高度并行计算,和专用算法加速,低功耗等具有不同特性的异构计算资源。这些计算资源的出现在一方面提升了集群的数据处理能力,降低了功耗,节约了计算成本,另一方面,也为方便、高效地使用异构集群中的各种资源带来了新的挑战。  本文就是为底层的异构集群和上层的异构应用搭建桥梁,从三个层次展开研究,为程序员提供一个易编程,可以充分发挥集群中异构资源的特性,可灵活适用于不同配置的集群的编程环境,且通过构建异构集群中的任务模型,优化了集群的资源管理与任务调度,让集群中的异构资源更加高效地被使用,具体贡献如下:  构建一个面向异构集群大规模数据处理的编程框架解决异构集群中“编程难”的问题:让程序员使用高层的并行编程模型(MapReduce)完成整个作业的并行,自动完成程序员提供的算法库与计算资源的映射,对程序员屏蔽底层硬件细节,具有高度的灵活性。此外,编程框架允许程序员调用已有的高度调优的算法实现,极大程度地提高了程序员的编程效率,更充分地发挥了各种异构计算资源的特性。在本文所使用的5个测试程序中,相对于各个程序的Hadoop实现(最优配置)取得了1.4x~16.1x的性能提升。  提出基于异构任务的行为特征的资源管理通过构建模型刻画异构集群中任务的异构性,并能使用该异构任务模型预测作业在集群的共享资源竞争情况下的性能,在本文使用的5个测试程序中,对K近邻算法的11种配置的性能预测误差平均为3.8%,对其他4个测试程序的平均预测误差仅为2.5%;集群的管理者能结合异构任务的特征进行任务划分,通过模型预测的各种资源配置方案下集群的数据处理速度,和处理单位大小的输入数据所需要的成本,为各作业选择最合适的资源配置方案;使用异构任务模型选择的资源配置方案相对于默认的方案最多能提高36.0%的性能。  根据异构任务的特性进行资源调度通过分析异构集群中不同作业对集群中异构资源的不同亲和性,我们先提出了基于异构任务模型的资源调度,在实验所用的两个集群中分别取得了19.4%和14.0%的性能提升;考虑到异构资源上分配到的任务加剧了集群中的系统I/O带宽资源的竞争,我们又提出基于异构动态亲和性的资源调度策略,在实验所用的两个集群中分别取得了24.4%和17.3%的性能提升。在实验所用的两个异构集群中,这两种策略都能够把集群中的异构资源优先分配给使用该资源效率高的任务,且性能提升的程度随集群中的GPU资源增多而增大。此外,基于异构动态亲和性的资源调度还能进一步减小任务在运行时受共享资源竞争的影响,提高负载运行周期中集群中各种资源的利用率,在集群中GPU资源分布较为集中的情况下表现明显优于基于异构任务模型的资源调度。
其他文献
图像修复技术就是对有破损的图像进行修复重建或者去除图像中的多余物体的一种技术。目前,该技术已经被广泛的应用到各个领域,其中主要包括修复医学图像和古文物的修复,修补有划
本文主要分析研究了针对百度搜索引擎的排名因素及其影响力,同时给出了相应的优化建议,并横向对比研究了目前国内的三大搜索引擎:百度、谷歌和360搜索引擎。  对于目前影响百
充分考虑跨平台能力的数控系统,具有较强的灵活性和可配置性,能够很好的兼容不同生产厂商的软硬件模块、实现动态选配和集成,满足用户的多种需求,提高产品竞争力。由中科院沈阳计
模拟演练系统是通过计算机相关技术对各类突发事故、灾害事件进行数值模拟和人员行为模拟的信息化平台,它允许用户在逼真的仿真环境下开展应急演练工作。相比于传统表演式的演
随着现代制造业的蓬勃发展,复杂模具和高精度机械零部件的需求日益增加,制造业对五轴数控机床加工的性能和效率的要求不断提高,同时,国家也加大了对五轴数控机床关键技术的研究力
目前国产数控系统多采用传统的文本编程的方式,要求用户熟练掌握数控系统的各种编程指令,编程效率较低,且对于复杂曲线曲面的加工零件,计算繁琐,工作效率低,编程复杂,校对困难。图形
集中式接入网络将基站计算资源进行物理集中,通过集中调度实现对资源的统计复用,从而提升整个架构硬件利用率和比特能效。然而,由于基带物理层计算资源的异构性、算法模块间依赖
在图像处理和图像分析领域,消除噪声是一个长期存在的问题,也是图像恢复研究领域的经典难题。除了传统的滤波去噪方法之外,小波变换和偏微分方程方法都是近二十年来较为流行的图
随着时代的发展人们所做的决策受到的影响因素越来越多,导致我们在做决策时无法直观或直接的进行。影响图的出现直观地描述并解决了这些问题。影响图不同于决策树,它给出了各个
可编程逻辑控制器(Programmable Logic Controller,PLC)是数控系统中重要的一部分,用于实现机床的辅助功能。随着开放式数控系统的发展,传统PLC封闭的系统结构与数控系统的开放