适用于矩阵运算的基于流媒体指令的数据预取

来源 :2006中国计算机学会体系结构专委会学术年会 | 被引量 : 0次 | 上传用户:pittashen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对X86的SSE结构,提出了一种流媒体结构中的Cache预取方法,它把对Cache的利用与应用该Cache的指令结构结合起来,属于定长步长的预取技术。对矩阵运算这样规律性很强的应用,提出了二次步长的概念。并利用二次步长,将利用单步长的不命中数进一步降低。利用包括SSE指令的X86体系结构的模拟器,把所提出的模型与公认的几种预取模型作了比较,给出了在矩阵运算中的比较结果,比其他同类型预取技术提高20%。
其他文献
本文结合育种实践,报道了作者在小麦种质创新及其利用研究的最新成果,总结了突变育种用于解决小麦育种实际问题的经验、方法和事例,提出了突变育种促进超级小麦育种计划的设
本文根据上海外高桥电厂二期工程2×900 MW超临界燃煤机组建设中对施工里程碑总进度的调整及优化,论述了在大型火电站工程中项目管理碰到的种种困难情况,并结合实际应用阐述
对自适应前馈功率放大器中的数字中频预处理技术进行了讨论,对基于软件无线电的自适应控制模块中的多通道中频及采样、正交解调和级联数字滤波处理电路进行了优化设计,并给出
本文根据"龙腾R2"处理器的结构,采用分布式检测,集中式仲裁的策略,设计了该款嵌入式处理器的精确异常逻辑。验证结果显示该设计简洁,有效,提供了一种嵌入式处理器中精确异常
本文为了提高语音信号处理系统中LPA部分的处理速度,在阐述其基本原理的基础上,提出了一种适合于VLSI实现的LPA硬件结构。最后,针对同一帧语音数据,分别采用了本系统和MATLAB
本文针对轨道交通自动售检票AFC(Automatic Fare Collection)系统中央和车站计算机系统中数据库元数据信息的中文语义描述及其应用研究提出一种基于元数据映射的中文语义描述
会议
本文从内核的实现机制出发,对Linux的ACL机制进行了深入分析,并提出了其不足之处与相应的改进思路。
本文基于ERP的管理思想和数据仓库与数据挖掘技术在决策支持方面的长处,以数据仓库作为企业底层的数据源,讨论了各种数据挖掘技术在ERP系统中的应用,并提出了新的应用系统框
本文基于Wattch功耗评估工具,设计并实现了针对龙芯2号的功耗评估方法。在此基础上,构建了片上多核的微处理器模型,进一步研究了关于片上多核微处理器的功耗评估方法。
本文介绍了EDAC和TMR技术的原理、特点.通过在FPGA上进行实现,从面积开销、延时开销和性能的角度对这两种技术进行了分析和比较。结果表明,TMR适用于加固单个寄存器或存储器