流处理器上典型矩阵程序Jacobi和GEMM的长流分段技术

来源 :2008年中国计算机学会体系结构专委会学术年会(ACA'08) | 被引量 : 0次 | 上传用户:ychhe123yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长流分段是提高流处理器上流寄存器文件(Stream Register File,简称SRF)带宽利用率的关键技术.其中,选择合适的优化策略(预取或重用)是确定最优分段的基础. 本文以典型的矩阵程序Jacobi和GEMM为例,研究了确定给定程序的优化策略和分段决策的技术,重点研究了有效重用度对程序优化策略选择的影响.实验结果表明,经过长流分段的Jacobi和GEMM程序能够有效避免和隐藏片外访存延迟,提高SRF的带宽利用率。
其他文献
近些年来,计算机存储器与处理器之间的速度差异越来越大.Cache技术的研究越来越重要.面向Cache的编译优化技术是提高Cache性能的一项关键技术.本文介绍了一些当前国内外研究
总结了相关标准对软件可信属性的定义,在现有软件可信性定义的基础上给出了军用关键软件的可信性定义。对现有的软件可信性及其可靠性、数据安全性、防危性等可信性子属性相
会议
本文在Popek,Goldberg等人的研究基础上,进一步讨论了ISA支持虚拟化的内容.首先形式化地定义了与这一议题相关的概念,将指令重新进行了分类,讨论如何缩小被虚拟机监控器干预
会议
KVM(Kernel-based Virtual Machine,基于内核的虚拟机)是一个新兴的基于Linux内核的虚拟机管理软件.目前其研究资料非常匮乏.本文着重分析KVM虚拟机的内部结构,重点探讨了其
会议
串行程序的线程可并行化限度(the Limit of Thread-level Parallelism)指串行程序在利用推测多线程技术进行并行化时所能达到的最大并行性。分析串行程序的线程可并行化限度,
会议
目前虚拟机技术在计算机领域得到了前所未有的发展,然而,虚拟机网络I/O的开销成为了影响虚拟机网络性能的一个重要因素.为此,对虚拟机网络I/O路径进行分析进而进行性能改进显
作者报告50例52条四肢火器性动脉伤,其中枪弹伤37例,弹片伤13例;急性动脉伤32例(33条),晚期动脉伤8例,假性动脉瘤7例,动静脉瘘3例(4条)。平均随访24.2个月,无一例死亡,修复血管通畅率93%,截肢率9.8%,肢体缺血性挛缩发生率10.9%。作者强调,早期诊断、早期正确处理此类动脉伤是成功的关键。应争取在伤后6~12小时内修复损伤血管。根据临床表现可作出诊断,急性动脉伤一般不做血管造
保罗·狄拉克(Paul Dirac)是20世纪英国最著名的理论物理学家,量子力学的奠基人之一,量子电动力学的开创者,也是最早预言反物质的科学家。他最负盛名的代表作是发表于1928年
吴焕先是一位对中国革命有大功的人,在坚持鄂豫皖根据地斗争和创建并领导红二十五军长征中作出卓越的贡献,是公认的红二十五军的军魂,但不幸血沃陇原,牺牲在长征路上。他的丰
人称郑孝燮是古建筑保护的斗士,是中国文物界当之无愧的秦斗级人物之一。他与单士元、罗哲文一同被誉为古建保护界的“三驾马车”。中国能够有诸多举世瞩目的世界文化遗产和