基于GPU的FIR滤波并行化算法的研究与实现

被引量 : 4次 | 上传用户:haidastudent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着GPU (Graphic Processing Unit,图形处理器)创新性的并行计算体系结构的迅猛发展,GPU已经能够提供比当前主流CPU更为强大的并行计算能力及更大的存储访问带宽。与此同时,由于基于GPU的软件开发模型和开发工具的日臻完善,开发人员能够较容易地编写出高性能的并行应用程序。因此,越来越多的计算密集型应用系统被移植到GPU进行并行化处理,从而极大地提高应用系统的性能。而如何更为有效地并行化以及优化计算密集型应用,已经成为学术界和工业界广泛研究的热点问题。有限冲激响应(FIR, Finite Impulse Response)滤波器因其具有线性相位、精度高以及易于大规模集成等诸多优点而被广泛应用于数字信号处理领域。为了获得性能更为优异的滤波器,增加FIR滤波器的阶数是最为直接有效的方法。然而,随着FIR滤波器系数的增加,滤波处理所需的计算量也成倍增加,大大增加了处理时间。随着实时数字信号处理系统对于计算FIR滤波所需的处理延时要求越来越小,如何设计出计算性能优良和处理延时更小的FIR滤波算法就成为一个极具价值的研究课题。本文基于CUD A (Computer Unified Device Architecture,统一计算设备架构)平台,利用GPU实现信号的高速滤波具有重要的理论和现实意义。本文将GPU作为加速器为基于CPU的通用计算平台提供计算能力补充,结合Overlap-save的方法,将时限较长的输入信号划分成子块后再进行滤波,提出了算法中可并行实现的部分,给出了具体的实现过程。分析影响计算性能的瓶颈,针对数据传输的大量耗时,通过异步并行执行的方法优化CUDA程序。在Interl(R) Core(TM) i72.80GHz CPU和GTX465GPU上完成了基于GPU的并行FIR滤波算法的实现,进行了不同输入信号规模的GPU和CPU算法的测试,给出了运行时间,及优化前和优化后的加速比和浮点乘加运算能力,优化后的加速比最高可达到89.7,平均浮点乘加运算能力可达20Gfina/s。并结合GPU并行计算本身的结构特点,通过实验分别对Geforce GTX465的I/O带宽、延迟以及SM个数对算法计算性能的影响进行了分析。
其他文献
目的通过对贵州省2012年1000例涉嫌酒后驾驶、道路交通事故酒精检案的特点进行分析,为预防和控制酒后驾车提供科学数据。方法在利用Excel及Spss统计软件对涉嫌交通事故肇事者
<正>350年前,他们的祖先追随南明皇帝逃亡至此。几百年过去了,果敢人依然行走在逃亡的路上绕行滇西南的崇山峻岭,途经云南省镇康县南伞口岸,跨越一条分界小河,就来到了缅甸果
我国是大陆法系国家之一,为了不断的完善我国的民法体系,我们应该要不断的探索未知,更要加强对已存的法律关系进行审视,以做到理论与实践的结合。其中,对相邻关系和地役权的
当前学术界对农村合作社的研究主要集中在经济层面上,即探讨农村合作社的经济功能。而对于农村合作社的社会功能的探讨则很少。基于此,对农村合作社的社会功能进行分析研究。
汽轮机的叶片是汽轮机的主要部件,而叶片叶根的完整性关系到机组的安全稳定运行。为了检测T型叶根的完整性,利用有限元计算软件对T型叶根的受力状况进行分析,从而判定T型叶根
市场经济是以信用法律为保证的信用经济。由于市场交易主体追求利益本能的驱动,在我国信用法律制度缺失和缺陷的条件下,即使有明晰的产权界定(更何况我国的产权界定还不明晰),市场
2018年5月15日质量与认证微信发布不久前,国家认监委官网发布两则撤销认证机构批准书的行政处罚,皆因认证机构存在出具虚假认证结论的行为。5月4日,国家认监委对稳标认证(上海
随着市场经济的迅速发展,企业在日常经营中,难免会遇到各种各样的风险。而管理会计的应用,不仅能及时的发现企业资金管理中存在的问题,同时能够有效的预防企业资金风险的产生
二战后,日本经历了近40年经济的高速发展,一跃成为世界经济强国,但随着"地产泡沫"的破裂,日本又经历了"失去的十年",国内经济发展止步不前。为摆脱困局,日本当局无奈地推行了