龙芯3号处理器性能分析与优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xuehua812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理器性能分析对于性能瓶颈的定位,指导下一代处理器的设计,具有十分重要的意义。随着微处理器的结构日趋复杂以及目标工作负载的不断变化,性能分析的难度也不断增大。如何使用有限的设计时间和资源进行高效的处理器性能分析是每个微结构设计者都要面对的问题。本文结合龙芯3号处理器处理器作了性能分析,针对发现的性能瓶颈提出了优化方案,并对优化后的性能提升做出了上限分析。针对模拟仿真平台速度慢,运行测试程序时间过长的问题,本文设计并实现了一套精简测试程序Minibench。  本文的主要工作和贡献如下:  1.对SPEC CPU程序进行了程序行为分析,并且得到了一些能够指导处理器性能分析的结论。CPU2000定点的工作集比较小,程序的压力主要在流水线而不是访存;SPEC CPU程序按Cache行为可以分成三种不同的大类,每类程序对CPU的压力各不相同,应该区别对待;x86平台上实测向量化对SPEC定点和浮点程序性能的提升分别达到4%和16%,可以考虑增加向量化的支持。  2.提出了处理器的对标分析方法,并将它应用到3A2000的性能分析工作中,针对性能瓶颈提出了相应的优化方案,并对优化后的性能提升做了上限分析。实际测量数据表明,3A2000主要的瓶颈在于访存和分支预测。访存方面,可以考虑提高数据Cache的访问带宽,缩短二三级Cache和内存的访问延迟;分支预测方面,可以考虑增加BHT和BTB表项等。实验数据表明,缩短二三级Cache延迟平均可以带来22.7%的性能提升;优化分支预测性能提升的上限定点为9.27%,浮点为4.44%。  3.针对模拟仿真平台速度慢,常规的CPU基准测试集工作负载大,执行时间过长的实际问题,本文设计并实现了一套精简测试程序Minibench。通过合理设计程序规模和工作集大小,Minibench在仿真平台的运行时间可以控制住10小时左右。
其他文献
数据挖掘又称数据库中知识发现(KDD),是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可解释的模式的非平凡过程,是一种从原始数据中获取隐含信息的工具之一.它的主
该文进行的研究工作主要包括:(1)分析网络管理的特点,确立网络管理系统进一步研究方向;(2)研究移动计算技术,分析移动计算在网络管理系统中的应用形式;(3)设计MobileNMS系统,
移动计算环境中网络通信的非对称性特点使数据广播成为数据发布的重要手段.数据广播可同时满足大量用户的信息获取需求而不出现网络拥塞,满足移动数据库的可伸缩性.数据收集
近年来,二代基因测序技术的迅速发展使得测序平台产生的数据量大幅增长。以GATK、BWA等工具组成的二代测序数据分析流程在业内得到了广泛的使用。现有的数据处理工具和方法受
利用开放式网络开展商务和政务活动对网络的安全性提出了更高的要求,最为重要的安全性要求包括:参与方的身份认证,会话的机密性,会话的完整性和抗抵赖性。常规的加密技术很难满足
随着Intranet/Internet的广泛应用,信息技术日益高速的发展,用户对数据存储性能的要求越来越高。而传统的分散式存储结构由于自身的局限性,很难从根本上解决实际面临的问题。
医学图像相对与其它类型的图像有其信息量大,处理涉及专业知识等特点,处理的难度很大.在分割算法方面,研究中改进了医学图像的二值化算法,给出了数种重要几何特征参量,综合地
GIS技术一直是计算机应用技术领域的热门研究之一,随着Internet技术的普及和深入,GIS也由传统的集中式向着C/S系统、WebGIS系统发展,WebGIS技术也成了GIS技术的前沿研究.WebG
随着数字电视的逐步普及,面向数字电视的智能化信息服务系统逐渐成为研究的热点。既提供个性化又提供大众化的服务是这种系统的目标,该系统涉及的许多相关领域值得深入研究。
该文基于Web服务的集成方案中,依靠Web服务,通过松散的应用集成,企业能够实时地访问不同部门、不同应用、不同平台和不同系统的信息.Web服务系列技术是架构在XML技术的基础上