论文部分内容阅读
NVIDIA在其GPU平台上开发的FFT库CUFFT经过几次升级,但在二维FFT实现上效率还有提升空间,而且对于特定不能与上下文的计算融合,导致多次对Globalmemory的访问。本文分析合并内存访问事务大小与占用率之间的关系,优化使用GPU存储器资源,对小数据量2次幂二维复数FFT在GPU上的实现进行改进,加速比最高达到CUFFT6.5的1.27倍。利用实数FFT结果的共轭对称性,算法的效率比复数FFT算法运算量降低了40%。最后将FFT的改进应用到光学传递函数(0TF)的计算中,采用Kemel融合的