基于GPU的非规则区域快速傅里叶变换的并行算法研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：linuxedit

【摘要】

：

随着超级计算机的诞生，高性能计算得到了飞速的发展，其带来的变化具有深刻的意义。高性能计算应用跨域众多并悄无声息的渗透到科研机构、实验室、教育机构之中，并在天气模拟、医

【作者】

：

陈家杰

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

非规则区域快速傅里叶变换并行算法 CUDA-MPI算法图形处理单元

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着超级计算机的诞生，高性能计算得到了飞速的发展，其带来的变化具有深刻的意义。高性能计算应用跨域众多并悄无声息的渗透到科研机构、实验室、教育机构之中，并在天气模拟、医学研究等领域作出贡献。与此同时，随着游戏产业的不断推动，图形处理单元(GPU)的性能亦得到了飞速的发展。GPU在计算能力、功耗、成本等多方面的优势使得探索大规模CPU+GPU异构平台上的高性能计算有着重要意义，全世界超级计算机TOP500排行榜中排名靠前的很多是CPU+GPU异构系统。　　快速傅里叶变换(FFT)在信号处理、模式识别、媒体压缩、医学等多个领域有着广泛的应用，越来越受到各个领域的关注和重视。传统傅里叶变换适用范围为规则区域，在实际的应用中需要计算非规则区域上的傅里叶变换，非规则区域的FFT计算已被列为FFT未来发展的四个方向之一。研究非规则区域数据快速变换及其CUDA-MPI并行算法对于高性能计算研究和评测具有及其重要的意义。并行FFT存在各计算节点间的大量数据聚合通信尤其是alltoall通信，能够对高性能计算机的内存访问性能、网络带宽和延迟等功能进行综合测试，显存和内存之间大量数据的拷贝能够对高性能计算机内存和显存间的数据传输带宽进行综合评测。　　本文主要研究二维六边形区域和三维菱形十二面体区域两个非规则区域上的FFT算法(FFTH)。首先，通过充分利用CUDA的层次化并行机制及其库函数，设计了二维FFTH的高效率的单GPU卡CUDA算法。在此基础上，通过引入PinnedMemory技术、优化Kernel函数数据读写以及优化排序算法，对单GPU卡二维FFTH算法进行了优化改进，并且推广到单GPU卡三维FFTH算法。最后，通过研究GPU上分布式并行数据的转置与排序算法，优化设计了二维FFTH的CPU+GPU异构CUDA-MPI算法，并将算法推广到三维。对于三维FFTH的CUDA-MPI算法，又进一步进行了优化，引入流水线技术将计算和数据传输进行重叠，同时采用InfiniBand网络提高数据的网络传输速度。　　本文设计实现的二维FFTH单GPU卡CUDA程序与CPU串行程序相比可以达到12倍加速比，其计算效率与CUFFT所提供的传统二维方形区域FFT程序的效率基本一致。设计实现的三维FFTH单GPU卡CUDA程序与CPU串行程序相比可以达到16倍加速比。设计实现的二维FFTH的CUDA-MPI程序其运行效率比MPI并行版FFTW提高25％，比基于CUFFT本地计算和FFTW的并行转置实现的方形区域并行FFT提高37％。设计实现的三维FFTH的CUDA-MPI程序与MPI并行版FFTW相比加速比达到2.5倍，其运行效率比基于CUFFT本地计算和GPU上并行转置实现的长方体区域并行FFT提高23％。

其他文献

云环境中基于负载控制的数据分配研究

大量的大规模密集型数据需要存储在多个服务器中，而应用越来越广泛的云计算环境很好地解决了大规模密集型数据在分配过程中遇到的规模性问题。随着云计算技术的发展，云环境下的

学位

云计算数据分配负载控制R-tree索引

不动点逻辑中的模型构造与推演系统的完备性

与LTL、CTL以及PDL等较简单的时序与模态逻辑相比，μ-演算由于含有不动点算子，拥有非常强大的表达能力，因而付出的代价是其可满足性的判定、模型的构造以及对应公理系统的完备性

学位

μ-演算可满足性模型构造公理系统完备性

基于部分假设共享的多模型协同解码研究

近年，统计机器翻译取得了很大的进展:从基于词的模型，到基于短语的模型，再到各种句法的模型。虽然句法的模型有诸多优点，如可以处理长距离调序等，但它们也并不是完美的，都存在各自

学位

部分假设共享多模型协同解码维汉统计机器翻译汉维统计机器翻译

面向航天应用的嵌入式操作系统实时性评价研究

随着我国航天技术的发展，航天系统功能越来越复杂，对计算机软硬件的要求也越来越高。传统软件系统已无法满足航天系统对于软件的实时性、可靠性和安全性的需求。为此，有必要在软

学位

嵌入式操作系统实时性评价航天应用基准测试方法

基于抽象字符串的算法识别研究与实现

随着当前软件规模的不断上升,软件维护的复杂度和效率日益受到关注。为了减少软件后期维护的复杂度、增加维护的效率,研究者提出了一系列程序理解的方法。这些方法降低了学习

学位

软件工程后期维护程序理解算法识别隐马尔科夫模型抽象字符串

几个有效的n选k不经意传输模式

不经意传输一经提出,就成为密码学界的研究热点之一。从理论研究方面来讲,不经意传输协议作为密码协议的基本内容和模块,可以作为组件用来构建其它密码协议,如零知识证明协议

学位

不经意传输离散对数难解问题隐私信息检索

XSM的静态分析和验证技术研究

近年来，虚拟化技术飞速发展，各种基于虚拟机技术的应用也越来越多。云计算等基于虚拟化这一新兴技术的安全性也越来越受到人们的关注。Xen作为一种新兴的虚拟化技术，拥有可扩展

学位

虚拟化技术静态分析正确性验证XSM安全模型框架钩子函数

基于人脸认知模式的相似脸搜索

人类对人脸认知模式的探索由来已久,并且已经成功应用于美容整形等研究领域。而计算机视觉和模式识别领域对人脸相似度度量方法的探索也从未停止,由此产生的人脸识别、人脸检

学位

相似脸搜索人脸相似度认知模式

MapReduce编程模型去耦合优化研究

随着“大数据”时代的到来,分布式数据处理平台受到越来越广泛的关注,其中Google提出的MapReduce编程模型成为了以数据为中心的大规模数据处理平台的主流实现。在MapReduce编

学位

MapReduce编程模型中间数据传输去耦合优化网络负载

基于Slurm的深度学习框架调度系统研发

学位

基于GPU的非规则区域快速傅里叶变换的并行算法研究

与本文相关的学术论文