基于GPU的DST/DCT并行算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:jooey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DFT(离散傅里叶变换)是在信号处理、数据图像处理、数值计算等科技和工业领域应用较为核心和重要的一类变换,FFT(快速傅里叶变换)则是DFT的一种最广泛使用的高效计算方法。而DST(离散正弦变换)与DCT(离散余弦变换)是DFT的两种特殊形式,图像处理、计算偏微分方程等方面具有较为深入的应用。  随着对信息处理规模和速度的需求不断提升,在科研、工业、民用等领域对计算的加速也有着不断增长的需求。目前对于FFT计算机计算的优化以已经很成熟,较为流行和知名的有CPU端的FFTW以及GPU端NVDIA公司CUDA的cuFFT。由于体系架构等原因,利用GPU可以拥有比纯CPU更高的计算能力;从而作为NVDIA官方库的cuFFT具有自底层的优化得天独厚的优势,对FFT的加速更为出色,目前处于领先地位。但遗憾的是,DST/DCT不能直接套用或简单修改FFT的计算程序或参数来进行变换。不过,通过分析DST/DCT与通用DFT的联系,在经过严谨的推导证明得出的结论下,我们可以通过对数据分别进行前处理、后处理的方式,利用已有的高度优化的FFT计算程序,对DST/DCT的计算进行加速,从而使其在应用中发挥更大的效能。  本文首先从DFT的原理与性质入手,分析阐述了DFT与FFT的联系,并从FFT的算法上论述了本文采用目前较为高效的FFT计算平台与方法cuFFT的原因。然后通过分析DST/DCT与DFT和FFT的关系和原理,梳理并阐述了通过对原始数据变换前后分别进行前后处理,利用高度优化的FFT计算程序,延拓与非延拓方式计算DST/DCT的理论与方法。之后针对CUDA与cuFFT平台与程序的存储、计算等具体情况和特点,设计并修改优化计算方法,从一维计算处理拓展到二维、三维情况,在此过程中对理论应用和实现方法做出了探索和和研究,尝试实现非延拓方式FFT计算DST/DCT在GPU上的高效并行算法。  通过在GPU上实现非延拓算法,不仅在计算处理规模上得到了降低,还在空间存储上做到了节约,为进一步提高运算规模与速度提供了可能,对不断增长的DST/DCT计算的应用需求具有实用和发展的意义。
其他文献
新疆是一个多民族的聚居地,少数民族尤其是维吾尔族在新疆人口中占有很大的比例。在信息互相交融的今天,各民族之间的文化交流日益频繁,如何借助先进的信息技术完成机器翻译、跨
自计算机产生至今,用户界面的设计与开发在软件开发的生命周期中占有非常重要的地位,它的发展经历了批处理界面、命令行界面、图形用户界面(GUI)及自然用户界面(NUI)的过程。随
云存储作为云计算的一个重要领域,通过把存储作为服务提供给外界使用,使得用户不需要建立自己的数据中心,只需要向存储服务提供商申请存储服务,节约了昂贵的软硬件基础设施的投资
细分类问题是指对属于同一个基本类别的物体进行分类,例如区分不同类别的鸟。由于背景中很少包含可用于区分细致类别的特征,所以能否精确分割前景物体在细分类中至关重要。同时
该文针对701研究所现有的图纸资料人工管理模式与先进的CAD技术的不相适应,提出了工程图无纸档案系统的设想,并从现实情况和将来可能的技术进步出发,拴面地介绍了该系统的设
未来的深空网络可以在多个行星之间进行数据传输。其中最大的挑战是具有长链路传播延时、高链路误码率、不持续链路连接和不对称链路带宽特性的深空骨干网络。大传播延时和高
图像编辑是图形图像处理领域的重要研究内容,无论是在影视、传媒、文化和艺术等领域,还是在人们的生活中,都有着广泛的应用。其中,有两种使用很广泛的编辑技术,一直在国际上得到热
互联网存在的最基础意义就是内容分发,即将数字内容从一个节点分发到另一个或多个节点。从2006年亚马逊公司推出“弹性计算云”和2007年苹果公司推出“iPhone”开始,互联网内容
为了节约存储空间和传输带宽,视频编码已经成为国内外研究的热点之一。同时一系列的视频编解码标准已经被制定出来,包括MPEG-x,H.26x。在这些编码标准中,为了获得比较好的编码效
计算机和网络技术的发展,使得我们可以更方便有效地保存、共享和传播各类信息,也催生了对可靠的身份认证技术的需求。传统的口令和卡片认证等方式不易管理、使用也不方便,而且不