针对申威26010众核处理器上部分BLAS1,2级函数的优化方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nxf_2004_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库。该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算。BLAS函数库作为计算机处理数值线性代数基础运算的标准,在诸如数值模拟、矩阵计算、神经网络等领域有着广泛的应用,因此国外研究机构及处理器厂商均对该库开展了大量深入的性能调优工作,对提升实际应用的性能具有重要现实意义。本文在新兴申威26010众核处理器上设计实现了部分BLAS-1、2级函数并研究了其性能优化方法,申威26010CPU采用了异构众核架构,其众多计算核心提供的大规模并行处理能力,使单块芯片拥有3TFLOPS的双精度浮点计算性能。本文研究如何在申威26010众核处理器上对一些BLAS-1、2级函数进行并行实现,并充分利用平台特性对它们进行深度的性能调优,从而归纳总结程序在申威26010平台上的并行实现与优化技巧,为其它类似程序优化提供借鉴。通过使用诸如向量压缩、LDM双缓存、任务动态调度及数据子总线亲和等方法,大幅提高了目标函数的性能。本文的主要贡献有以下三点:  在申威26010众核处理器单核组上并行实现部分BLAS-1、2级函数,相对于GotoBLAS库参考实现而言,BLAS-1级函数平均加速比约为11倍,BLAS-2级函数平均加速比为12倍。  本论文采用了包括双缓冲、向量压缩、动态负载均衡等诸多行之有效的性能优化手段,充分提高了目标程序的性能,为今后在申威26010平台上程序优化工作提供了积极的借鉴意义。  通过在LAPACK函数中调用这些高效实现的BLAS-1、2级函数,发现相应的调用函数性能有显著提升,充分说明了本文工作的应用价值。
其他文献
近年来互联网上数据的急速增长,其中很大部分是流数据,具有无序性、突发性、易失性、无限性等特点。流数据有较强的时效性,其实际价值随着时间的流失而减少。为了应对流数据的处
学位
UniEAP1.7是东软股份公司研究开发的通用企业应用平台框架.本论文主要是按照J2EE的多层模型来分析UniEAP1.7框架,并针对其存在的缺点提出改进方案.第一章主要讲述本课题的研
图形用户界面提供了一种良好的用户与应用程序之间的交互机制,通过它,用户可以用鼠标、键盘等输入设备对屏幕上显示的构成用户使用界面的窗口、按钮、图标等界面构件进行直接操
随着近年来机器翻译的新一次研究浪潮的兴起,研究人员已经认识到机器翻译评测对机器翻译的关键技术及市场推广的重要推动作用.该文主要讨论的就是汉英机器翻译评测方面的研究
该论文中在分析当前网络管理现状的基础上,提出了以管理需求为驱动的智能综合网络管理系统的整体设计思想,将系统划分为四个子系统,并详细阐述了各子系统的功能划分.在深入分
随着社会的发展,人们对机器翻译的需求越来越显著,而现有的自动翻译系统难以满足人们的需求.自90年代以来,随着Internet的飞速发展,语料库语言学得到了越来越多的重视,诞生了
供应链系统既是21世纪的企业运营哲理,是由企业级制造模式向世界级制造模式发展的高新产业技术:也是面向21世界的信息产业技术和新一代MIS应用软件研究开发的重点,是电子商务技
敏感应用和普通应用都在操作系统平台上运行,而现有的操作系统大都采用集成性很强的内核来管理系统所有资源。由此导致内核设计复杂,代码量大,攻击面广,不可避免的存在一些漏洞。
自助服务系统以独立的、无人值守的形式为用户提供新颖多样的服务项目,从而真正实现全天候服务。本文主要论述了Agent技术在实现银行自助服务系统平台的业务无关性方面的应用