ATLAS在龙芯2F上的访存优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mryangjinhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
BLAS是很重要的标准数学库,它主要是一系列矩阵与向量基本操作的集合,其运算性能的测试也是高性能计算机的重要评测手段。为发挥国产龙芯2F微处理器的计算性能,本文在基于龙芯2F处理器的高性能计算机系统KD-50-I上进行BLAS通用优化版本ATLAS的针对龙芯体系结构的优化。本文首先介绍了BLAS的函数功能,并着重分析了ATLAS实现时采用的矩阵和向量的存储数据结构。不同的函数具有不同类型数据结构的参数,直接影响到ATLAS对各函数的优化和实现。随后介绍了龙芯2F体系结构,特别是对程序性能影响最大的流水线结构和存储器结构特点。基于龙芯2F体系结构特点和ATLAS各级函数的运算特征,提出一系列方法来优化ATLAS各函数的性能。主要的优化目标在于函数的访存方式,通过调度指令,尽可能地将计算时间隐藏于访存之中,同时有效利用内存以及cache特性,减少内存访问时间,以达到加快程序运行的目的。然后,根据BLAS二级函数的特点,将对BLAS2的优化目标确定在对内存的访问方式上,通过循环展开减少内存访问次数,并利用龙芯2F的非阻塞cache机制形成内存访问流水线,加快内存访问速度,消除ATLAS函数运行时的性能波动,最终将BLAS二级函数性能提升30%以上。最后,通过对cache的有效利用,采用数据预取、矩阵分块以及部分拷贝等手段来减弱大规模参数下函数产生的cache失效问题,并使用循环展开方法减少对内存和cache的访问次数,优化后的BLAS3单精度函数性能较ATLAS提高近80%,而双精度函数性能提升50%以上。本文提出的各种方法对即将推出的龙芯3号处理器上的高性能BLAS实现有重要的参考意义。
其他文献
随着社会的发展,人们对居住的社区环境要求也越来越智能。为了实现这些要求,需要在社区中架设无线传感器网络,但为了充分发挥无线传感器网络的作用,就必须将传感器网络采集的
随着生活水平的提高,人们越来越注重生活品质提升,传统的家用电器已经无法满足现代家庭的需要,因此集信息化、网络化和智能化为一体的信息家电以其特有的优势进入未来家庭将是一个必然的趋势。目前国内对信息家电内部结构的研究很少,本文正是在这样的背景下,研究一种信息家电内部结构并予以论证和实现。本文分析了信息家电的主要功能,提出了一种基于XML(Extensible Markup Language)描述的信息
随着生物信息学的发展,全基因组序列不断被测序,对于转录的研究变得越来越重要,转录因子,作为一种重要的转录调控元件,它与DNA序列的结合位点——转录因子结合位点的识别已经成为
J2EE是一种简化企业解决方案的开发、部署和管理复杂性的体系结构。在信息化时代的Web应用程序开发中,J2EE以其良好的可移植性和可扩展性,占有强大的竞争力优势。J2EE体系架
在人的视觉感知、识别和理解中,形状足一个重要的表达物体信息的参数。从图像中提取目标形状是大多数目标识别算法需要进行的一个重要步骤。角点是图像的一种重要的局部特征,是
无线传感器网络是一种由大量具有无线通信功能的传感器构成的动态、分布式、自组织网络,其目的是通过协作的方式感知、采集和处理网络覆盖区域中感知对象的信息,并发送给观察
计算机网络在生产生活中扮演着越来越重要的角色,而网络需要有网络设备的支持,使用网络设备构成网络后,才能运行各种专用服务和终端。随着信息时代的发展,网络设备的种类繁多
有关调查表明,P2P业务已悄然占据了互联网业务总量的60%-80%,成为杀手级宽带互联网应用。P2P业务流量在对互联网业务起巨大推动作用的同时,也带来了因资源过度占用而引起的网
Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了一种采用多分类器对Deep Web数据源进行自动
随着计算机技术的普及和网络技术的发展, Web己经发展为一个巨大的信息仓库,成为日益重要和最具潜力的全球信息传递与共享的资源。然而,想要快速、准确地从海量的资源中找到