基于推断技术的0级指令缓存研究

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:xsy00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指令缓存占了处理器较大比例的能耗,增加小容量L0指令缓存可降低取指能耗.本文提出了一种L0指令缓存技术:基于推断技术的0级指令缓存.使用命中推断和缺失推断技术减少了L0缓存tag比较.根据程序跳转次数和方式,给出了四种基于推断的L0指令缓存结构.以上结构较标准L0指令Cache设计相比不仅能减少比较时间,同时也能节省tag比较的能耗.实验结果表明,对于所选取的SPEC2006测试程序,较标准L1指令Cache取指能耗下降了40%-60%,性能降低控制在8%范围内.
其他文献
已有的相关方法和软件在解决表观遗传学领域中DNA甲基化状态预测问题时,存在不准确、速度慢、时空效率低等问题.针对该问题设计并研发了新的甲基化状态预测程序("Hint-Hunt").新程序通过对含有辅助定位信息的甲基化序列进行最优相似比对,实现了对DNA甲基化状态的分析与预测,能够精准地给出参考序列中每个位点的甲基化状态数据.同时程序还实现了甲基化状态的假阳性识别、阈值过滤、最优筛选和得分共享机制等
高效的动态任务调度和容错机制是高性能计算面临的挑战之一,多数已有的方法难以高效扩展到大规模环境.本文提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关理论分析了任务申请的平均等待时间,通过给定的阈值进行决策分层;结合局部感知的轻量级降级模型,可有效降低大规模并行课题的容错开销,提高系统的可用性.Micro Benchmark在神威
针对肿瘤细胞测序数据的基因拷贝数变异检测是研究癌症相关基因变异的重要手段.高通量测序技术的迅速发展产生的海量测序数据,一方面推动了基因拷贝数变异检测算法的发展,另一方面带来了数据处理与存储等计算问题的挑战.本文提出了一种新的面向多核平台的基因拷贝数变异检测的并行算法,设计了一种基于序列数目等量的窗口划分与合并策略,并通过将计算过程划分为多个计算BIC值的计算任务实现了程序的并行化,在此基础上,通过
针对GPU集群系统,研究了AINV和SSOR-AI两类近似逆预条件的并行算法.采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法.基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题.基于CPU与GPU协同
Alltoall通信是对网络性能要求最高、扩展性最差的MPI集合操作之一,同时又作为核心通信模式广泛应用于诸多计算领域.而随着高性能计算机系统规模的急剧增大,能够降低成本并提高利用率的过载网络(oversubscribed network)设计成为大规模计算系统网络设计的趋势.过载网络给Alltoall通信带来更严峻的挑战,网络的过载特性不仅会导致链路的竞争,还易引发消息顺序错乱从而严重降低通信性
直线加速器中大规模带电粒子的追踪对高电流直线加速器的设计和优化至关重要.本文介绍了3维异构并行束流动力学模拟软件LOCUS3DG的开发现状,这是基于以前开发的并行束流模拟软件LOCUS3D.粒子按照一定比例同时分配到CPU和GPU中,并开发了一种有效的异构并行3维泊松方程求解器.在美国阿汞国家实验室的BGP超级计算机,中国科学院超算中心和国家超算天津中心的集群上对软件进行了详细的测试,并得到了测试
气象数值模式是天气预报和气候预测的基本工具和方法,随着技术的发展,模式分辨率有了大幅的提高.分辨率的提升带来了计算量呈指数倍的增大,然而气候气象预报的时效性对并行程序的设计与计算平台性能都提出了更高的要求.本文以气候模式T106为研究案例,以Intel Xeon PhiTM为实验平台,探索混合异构编程与优化的可行性,实现了CPU端MPI+MIC端OpenMP的混合异构编程,充分继承了原始代码的MP
GALBC是一款应用在CPU-GPU异构平台上基于格子Boltzmann模型开发的并行计算软件,可用于多相流、渗流分析等计算流体动力学(CFD)领域.格子Boltzmann方法(LBM)是在介观层面上研究流体特性的一种CFD方法,因其物理图像清楚、模型简单和数据局域,非常适合利用图形处理器(GPU)进行大规模并行计算.在自主软件GALBC中,基于统一计算设备架构(CUDA)编程模型重新设计了传统L
近几年来的科技与应用的高速发展对高性能计算提出了强烈的需求和严峻的挑战,异构众核系统因其良好的性价比和高能效表现被越来越多广泛应用于高性能计算领域.Nvidia GPU和Intel Xeon Phi是常用的两款具备通用计算能力的众核处理器,不过传统的异构众核平台大多由CPU+GPU或者CPU+Xeon Phi的单一模式构成.蒙特卡罗方法是众多期权定价算法的核心,在本文中面向由CPU、Nvidia
高性能计算机的并行处理技术发展促进了并行可视化,互联网带宽的增长催生了远程可视化,使得基于高性能计算机可视化服务器的多用户远程可视化研究受到重视,应用需求日益迫切.本文根据建立基于高性能计算机的大规模高性能计算数据远程可视化系统任务要求,研究了高性能可视化服务器采用传输图像途径与客户端进行信息交互的关键技术,设计实现了基于WebSocket技术定义初始化、交互浏览、交互修改等多种协议,可有效支持远