基于CPU-GPU异构系统的并行应用优化研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:benlums
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,异构体系结构是构建大规模并行计算系统的重要手段。使用GPU加速卡来构建异构系统成为一种主流的方式。而不论从应用的角度,还是从体系结构的角度看,如何充分有效的利用异构计算机系统实施并行都是一个有挑战的工作。在本文中,我们以两个不同类型的应用为例,说明了如何在异构系统上优化应用程序。   冷冻电镜三维重构是我们选择的一个例子,作为研究蛋白质分子结构的重要工具,该算法是一个计算量达Petaflops的应用。我们仔细的分析了它整个工作流程中的瓶颈,挖掘了三维重构算法中可能被利用的并行性,并提出了一种自适应的动态任务调度方法来在应用与结构之间有效的实施并行映射。实验结果表明,在异构系统上,这种多层次的并行实施是一种能够充分利用CPU和GPU各自的计算能力的高效工作方式。   我们选取的另一个应用是双精度矩阵乘法(DGEMM),以其为代表的稠密矩阵的运算是科学和工程领域的重要问题。这种应用在CPU-GPU异构系统上实现时,不同存储层次之间的数据传输成为影响整个DGEMM性能的关键。在矩阵规模较大的条件下,我们通过逐渐增加一些优化方法,总结出了一种新的流水线优化算法,并且也实施了CPU和GPU-之间有效的数据传输策略。和AMD公司提供的ACML-GPU相比,我们的优化程序获得了约2倍的加速比。   本文中我们提出了针对此类计算密集型应用的一些通用优化手段,同时,也针对这些应用的具体特点,在不同的硬件平台上给出了相应的一些优化技巧,可以给其他的应用开发者提供一定的帮助建议。
其他文献
近年来随着普适计算的迅速发展,基于IEEE802.11标准的无线通信技术得到越来越广泛的应用。无线技术为人们的通信、娱乐、计算提供了便利,然而无线环境具有网络信道带宽窄、网络
云计算强调计算环境的灵活性,要求计算平台支持按需分配、动态调整、快速部署、及时解散等功能。系统级虚拟化技术被认为是能满足以上需求的关键技术,已被应用于搭建云计算的
随着信息化的不断深入,数据的处理越来越呈现出海量,分布式,并行等特点,MapReduce框架以其简单性,低成本,高可伸缩性,高效性,受到了企业和科研机构的极大关注,并得到了广泛应
软件成本估算和管理是软件项目管理的核心任务之一,是项目计划、资源调度及人员分配的重要参考依据。在过去的几十年中,软件工程研究领域提出了大量的软件成本估算方法,但这
基于构件的模型驱动开发被认为是实现软件复用和降低系统开发复杂度的重要技术之一,并已在工业界得到广泛应用。其基本思想是:根据不同的视角和关注点将系统分解为不同模型,然后
基于计算机视觉的多点触摸交互桌面提供了一种自然的交互手段,成为国内外研究机构的研究热点。基于计算机视觉的多点触摸交互桌面环境噪声干扰严重,多个触摸手指之间相互遮挡
化工生产中产生大量的过程数据,这些数据蕴含着生产优化、质量管理、过程控制的相关信息。已有的关联规则挖掘应用领域涉及到商业、金融、电信、零售等行业,这些行业的过程以
随着无线技术的发展和硬件成本降低,基于移动无线网络的视频应用得到越来越多的普及。传统面向数据传输的网络协议已经不能满足视频传输需要。一方面,视频数据具有特殊的编码结
XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行
随着集成电路工艺进入深亚微米,芯片频率不断提升,中央处理器(CPU)对数据的访存成为性能瓶颈。通过采用DDR(Double Data,Rate)内存技术可以大幅提高数据访存速率和带宽,但是D