基于GPU/CPU混合架构的流程序多粒度划分与调度方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jiuki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流编程语言简化了相关领域的编程,很好地把任务计算和数据通信分开,从而使应用程序分别在任务级和数据级均具有可并行性。在多GPU和多CPU的混合架构系统平台上,任务计算与数据通信的复杂性是影响数据流程序执行效率的一个重要因素,如何在混合架构下进行高效的任务划分与调度是近年来并行计算领域的研究问题。针对GPU/CPU混合架构系统结构中存在的大量数据并行、任务并行以及流水线并行等问题,提出并实现了面向GPU/CPU混合架构的数据流程序任务划分方法和多粒度调度策略,包括任务的分类处理、GPU端任务的水平分裂和CPU端离散任务的均衡化,构造了软件流水调度,经过编译优化生成OpenCL的目标代码。任务的分类处理根据数据流程序各个任务的计算特点以及任务之间的数据通信量大小,将各个任务分配到合适的计算平台上;GPU端任务的水平分裂利用GPU端任务的并行性将其均衡分裂到各个GPU,以避免GPU间高额的通信开销影响应用程序整体的执行性能;CPU端离散任务的均衡化通过选择合适CPU核,将CPU端各任务均衡分配给各CPU核,以保证负载均衡并提高各CPU核的利用率。编译优化包括存储访问优化和目标代码优化两部分内容,存储访问优化采用多种数据存储结构和多种访问类型的方法,以提高内存的访问效率;目标代码优化通过生成目标模板类和压缩目标结点的个数,降低目标代码的冗余量。实验以三块NVIDIA Tesla C2050、两块四核CPU作为混合架构系统平台,选取9个多媒体领域的经典算法作为测试程序,对数据流程序任务划分方法以及优化方法进行实验分析。实验结果表明,各划分方法分别在CPU与GPU平台上提高了应用程序的执行性能,优化方法提高了数据的访问效率并降低了目标代码的冗余量,验证了各划分方法和优化方法的有效性。
其他文献
MapReduce是一个被广泛采用的大数据分析计算框架,其基于分治的思想在一次性批处理的应用中具有相当大的灵活性和可扩展性。但是,MapReduce并不直接支持被广泛使用的迭代类型
IMS(IP Multimedia Subsystem,IP多媒体子系统)是3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)在R5版本中提出的支持IP多媒体业务的子系统,是一个独立于接入技
目前在电力系统各种应用软件中,图形支持系统的实现和功能各异。多样化的软件环境使得不同的电网接线图绘制软件和显示软件之间存在着难以共享和交换数据的问题,电力系统的发
可满足性问题(简称SAT问题)是NP-hard问题,它是当前运筹学、人工智能和计算机科学的热点领域,解决SAT问题具有突出的理论价值和应用价值。解决SAT问题的传统算法往往要占用很长
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题。图像检索技术是解决这一问题的关
XML文档具有的与平台无关、可移植性强等特点使其已成为跨系统交换数据的标准格式,便于进行信息检索、集成、挖掘,有着重要的实际应用意义,而Word字处理软件具有强大的文档编辑
纹理合成是计算机图形学的重要研究方向,有其广泛的应用前景。如三维表面的特征保持,出土文物的表面修复,三维表面流场的纹理可视化,3D游戏的真实感渲染,地理信息系统的地形渲染,破
随着机器学习的研究不断火热,使得电脑、手机、智能电视、家庭游戏机等设备上的人机交互应用越来越流行,而这一技术的核心就是近距离视频跟踪技术。通过对操作者的动作进行跟
移动Ad hoc网络(移动自组网或MANET)是指由一组带有无线收发装置的移动节点组成的一个多跳的、不需要固定中心接入点或者基站支持的自治系统。以其组网灵活,快捷,不需要预设
本文从B/S模式多层数据库应用系统开发面临的问题出发,仔细研究了现有代码自动生成技术,并在深入研究XML与XSLT技术的基础上,设计并实现了基于XML/XSLT的动态网页自动生成系