GPU上FFT自适应性能优化框架与虚拟化关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hzpjhuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GPU作为一种新兴的体系结构在高性能计算领域中使用愈来愈广泛,其高带宽和计算吞吐量以及低功耗的特点能够提升应用程序的性能。然而,在GPU编程中,需要有效管理大量线程中内存层次和处理单元之间数据传输,使GPU数据本地化需要权衡程序性能、代码复杂度以及优化所需付出的努力。因此,其编程复杂性给开发人员带来了重大的挑战。目前计算机硬件结构和软件执行环境日新月异,硬件技术的革新很难与软件性能的提升保持同步,无法充分发挥硬件的计算能力。软件自适应技术被认为解决这一问题的有效途径。FFT是计算离散傅里叶变换(DFT)的快速算法,具有广泛的应用,常被用于数字滤波、求解偏微分方程和信号分解等。因此,优化FFT的性能在实际应用中具有十分重要的意义。   目前比较通用的GPU编程模型CUDA(Compute Unified Device Architecture)、OpenCL(OpenCL Computing Language)以及OpenACC只支持利用安装在本地的GPU,如果要使用远程结点上的GPU,程序员需要在不同的结点上显示的管理数据通信。当今计算机系统中每个计算结点都安装了多个GPU,因此,整个系统包含了成百上千个GPU,如何有效利用系统中计算资源变得更加复杂。   为此,本文基于CPU+GPU混合异构平台,研究了自适应FFT框架、集群多维FFT并行算法以及GPU虚拟化技术,具体如下:   基于GPU提出了一个FFT自适应性能优化框架,基于该框架实现了名为MPFFT(Massive Parallel FFT)的高性能FFT软件包。对于计算长度为2的幂多维FFT,MPFFT的性能在AMD GPU上远远优于clAmdFft,在NVIDIA GPU上与CUFFT的性能相当。此外,MPFFT也支持规模非2的幂FFT的计算。对于3维非2的幂FFT,MPFFT是FFTW在4线程时性能的1.5倍至28倍,在TeslaC2050上相较于CUFFT4.0取得了20.01倍的平均加速比。   研究了多维FFT在集群系统上的并行算法,基于该算法开发了名为MPFFT-MPI软件包,该软件包采用二维分解,可以在GPU集群上计算n维FFT。   为了管理集群系统中GPU资源,本文重新设计了VOCL(Virtual OpenCL)虚拟化解决方案,该框架主要基于OpenCL和MPI(Message Passing Interface)编程模型,由于VOCL API和ABI与OpenCL API和ABI保持一致,本地OpenCL应用程序无需更改源代码和重新编译就可以使用系统中所有远端GPU资源。VOCL除了透明使用系统中所有GPU之外,还支持动态任务迁移。  
其他文献
人体检测是计算机视觉领域一个重要的研究方向,随着智能化的不断发展,人体检测已经开始逐渐渗透到各行各业以及我们生活中的方方面面。而作为一种新的感知媒体,深度图像序列具有
RTEMS(Real Time Executive for Multiprocessor Systems)实时核常被应用到控制系统中,它和普通操作系统的区别在于,不仅关注系统能否正确处理外部信息,同时更加注重系统是否在
视觉决策涉及对眼前既定对象的选择,是感观信号联结以达成合适反应的过程。它是人们日常生活中进行最频繁的决策,也是用户与Web交互时进行最多的活动之一。在人-Web交互环境中
随着信息技术的不断发展,计算机软件功能更加齐全,并在各领域得到了广泛的应用。同时软件研发过程也面临着诸多新的挑战:软件结构复杂,需要多个团队一起协作研发,而不同研发团队
随着云计算服务的广泛使用,云平台可信性已经受到了国内外的广泛关注。云用户与云服务商之间遵循SLA协议,执行服务与被服务的关系,一方面,云服务商在提供服务的同时,担心自己的企
随着计算机、网络通信等技术飞速发展,人类社会进入全球数字化和信息化的高科技时代。如何保证信息的安全,成为一个现代社会极其关注的问题。秘密共享理论广泛应用于信息安全领
图像的稀疏表示是当前图像处理领域的热点问题,研究图像的稀疏表示及其在图像处理中的应用,具有极为重要的理论价值和实际意义。本文围绕图像的稀疏表示,以字典学习为重点,同时对
Linux内核代码量大、逻辑关系复杂,因此对内核中的错误进行追溯和调试一直以来都是一件既耗费时间又耗费精力的事情。已有的错误追溯方法和技术种类繁多、效果各异,但几乎都
最小独立支配集问题是图论中经典的NP完全问题之一,要求在给定的图中找到一组顶点D,D的顶点互不相邻(独立),且D之外的每个顶点都有相邻的顶点包含于D(支配)。最小独立支配集问题在很
用听觉系统在彼此之间以及与周围环境进行实时的交互是人和其他哺乳动物所具备的一种最自然、最有效的交互方式之一。因此要想实现友好的人机交互,机器人的听觉系统便是一个不