基于申威平台的混合基FFT的实现与优化

来源 :郑州大学 | 被引量 : 0次 | 上传用户:liuaxing1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速傅里叶变换(Fast Fourier Transform,FFT)是数字信号处理领域的基础算法之一,在科学计算、图像处理等方面有着广泛的应用。申威系列处理器是我国自主研发、拥有完全自主知识产权的国产处理器,在我国科学计算和信息安全等领域发挥着举足轻重的作用。以申威众核处理器“申威26010”为基本计算器件的“神威太湖之光”超级计算机系统,自2016年6月发布以来连续四届蝉联TOP500的桂冠,在最新发布的全球超级计算机500强榜单中,目前排名第三位。在申威多核处理器领域,申威1核、2核、4核处理器也开展了嵌入式领域的适用性探索研究并取得了一定的应用效果。然而目前,针对申威嵌入式处理器还没有一个定制的高效的FFT算法实现。当前的FFT算法无法发挥出申威处理器在向量和缓存等方面的优势,算法性能有较大的提升空间。因此,在申威嵌入式平台上实现高效的FFT算法具有重要意义。针对该问题,本文围绕在申威嵌入式处理器上实现高效FFT算法进行展开。本文实现了基4-基2混合基FFT算法,并从蝶形计算单元,旋转因子表和位序变换三个方面进行了优化,最后结合申威221处理器的体系结构特征,采用循环展开优化、手工SIMD向量化优化和手工数据预取优化面向申威平台对FFT算法进行深度优化,最终提升FFT算法在申威221处理器上的单核性能表现。本文主要工作如下:(1)研究并分析了目前比较常用的几种通用FFT算法,包括基-2 FFT算法,基-4 FFT算法以及混合基FFT算法等,并对其优缺点进行了对比研究。基于此,在申威平台上实现了基4-基2混合基FFT算法,并从化简蝶形计算单元,重新排列旋转因子表和使用查表法优化位序变换操作三个方面对FFT算法进行了改进,提高了混合基FFT算法性能。(2)结合申威221处理器的体系结构特征,面向申威平台对混合基FFT算法进行优化,提出使用循环展开优化,SIMD向量化优化和数据预取优化等方法提高申威221处理器上的FFT计算效率。实验结果表明优化后的混合基FFT算法性能平均加速比为3.01。该FFT算法在保证申威处理器上的计算结果与TMS320C6678上的FFT算法计算结果误差在万分之一以内的情况下,单核性能达到了TMS320C6678的FFT单核计算性能的70%。说明现在已经可以在某些领域使用申威221嵌入式处理器代替TMS320C6678处理器。
其他文献
氮化镓(GaN)是第三代半导体材料的代表,具有宽带隙、高击穿场强、高电子迁移率、化学稳定性好等优点,在光电器件和电子器件中展现出巨大的潜力,可以被用来制备耐高温、高压、高
21世纪是信息的时代,随着互联网技术的发展,网络空间已经成为人类在现实空间外另一个重要的活动空间,人们通过互联网进行通信、娱乐、金融活动等等。这些活动都被人们记录为数据沉淀下来,而如何利用这笔庞大的数据财富是当前的研究热点。由此发展出的数据挖掘、机器学习等学科,让我们看到了人工智能时代的曙光。虽然互联网给我们的生活带来了巨大的便利,但同时也给公共安全带来了新的挑战。个人隐私的泄露,依靠互联网的诈骗
随着移动互联网技术的不断迭代,移动互联网业务增长势头迅猛,其对人们的日常生活产生了巨大的影响。在移动社交领域,以微博、微信、今日头条为代表的应用程序,发挥着重要的连接作用,实现了人与人之间,人与信息之间的高效联动。精准的内容推送也是其增强用户对平台粘性的重要保障。在大数据背景下,如何快速精准的捕获到所关注的社会热点信息,成为网络舆情发展的核心问题。因此,话题跟踪技术应运而生,其旨在实现对以信息流形
在“简单位置(Simple Location)”和“实体与属性(substance and quality)”这两个例子中,怀特海给出了具体性误置(misplaced concreteness)概念的一般含义。根据怀特海的理
随着我国移动通信网络不断地发展,GSM(Global System for Mobile Communication全球移动通信系统)网络的规模有很大程度的提高,用户对无线网络的要求也越来越高,对用户感知及
当下,人工智能逐渐具备类似于人的自主性,打破了仅充当辅助工具的局面,甚至有的人工智能已直接参与创作。这在一定程度上提高了文化产业的效率和效益,但其也给现行著作权法体系带来了巨大的挑战。主流观点认为著作权法是围绕人类作为创作主体来设计和规制的,保护的是作品中所蕴含的人类思想或情感的表达,权利主体只能是自然人、法人或非法人组织。但是,当下有些人工智能已可以自主地生成内容,且其生成内容在形式上与人类作品
改革开放40余年,我国已成为“世界工厂”,工资劳动者已超过3亿人,如何高效保护这一庞大群体的合法权益已成为我国劳动法领域的重点议题。从目前我国劳动法相关法律法规来看,保护劳动者劳动权益主要着重于对劳动权益最低标准的规定和权益受损后的救济两方面,这两方面能解决问题但不善预防问题,而防患于未然是先哲留给我们的智慧,也是成本最低的实现法治社会的途径。因此,本文以工资劳动者(又可称为“员工”)为研究对象,
自2003年我国推行社区矫正以来,社区矫正逐渐成为恢复性司法理念下一项区别于监禁刑的重要刑罚执行手段。社区矫正将服刑人员安置在相对于监狱具有开放性的社区内进行矫正与
帧同步技术一直是通信领域的研究热点,其性能直接关系到整个系统的通信质量。传统的信号处理过程中,帧同步需要遵循Nyquist准则,而过大的采样数据量,极大地增加了系统对采样
本文研究双n次分片参数曲面的凸性,着重探讨自由曲面全局凸的判别条件,这是一个既困难又复杂的课题.计算几何中普遍使用的几个分片参数曲面均属于双n次参数曲面重要曲面类.本文是对文献[30]的推广和深入.本文将自由曲面表示成统一的双n次分片参数矩阵形式,运用代数解析法,针对矩形域上参数曲面的特点,对Gauss曲率进行复杂的计算简化和推导,获得了判别曲面凸性的双6n-4次判别函数.进一步,运用多项式方程零