【摘 要】
:
计算机体系结构设计同时具有艺术性和工程性。片上多核处理器为新型计算机体系结构的设计提供了机遇为了使构思有线索可循,本文给出了基于多核处理器的计算机体系结构构思的对立统一模型,它是体系结构设计思想和方法的模型,而不是一种关于某种具体结构的设计结果。其中从对立统一的观点探讨了多核处理器对计算机体系结构的影响,应用、工艺和体系结构之间,多核CPU、FPGA、GPU之间,多发射、流水线、Cache、乱序执
【机 构】
:
School of Computer Science and Engineering,Beihang University,Beijing 100191,China
论文部分内容阅读
计算机体系结构设计同时具有艺术性和工程性。片上多核处理器为新型计算机体系结构的设计提供了机遇为了使构思有线索可循,本文给出了基于多核处理器的计算机体系结构构思的对立统一模型,它是体系结构设计思想和方法的模型,而不是一种关于某种具体结构的设计结果。其中从对立统一的观点探讨了多核处理器对计算机体系结构的影响,应用、工艺和体系结构之间,多核CPU、FPGA、GPU之间,多发射、流水线、Cache、乱序执行等并行技术之间的关系,提供了一个思路以指导设计者把握多核体系结构设计的实质和设计构思的思想及方法。
其他文献
本文介绍了蛋白质定量软件的设计及测试结果.分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加.相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1.PG-QuantWiz软件在16个GPU运行结果相对在单个GPU运行结果,加速比为14.18,效率为89%.
Cloud computing is gradually evolving as a widely used computing platform where many different web services are published and available in cloud data centers.In recent years,there has been an increasi
Space filling curve based on Hilbert Peano function is an excellent linear mapping method and get wide application in many fields.In high performance computing,traditional algorithm for domain decompo
索引表求交是搜索引擎进行查询处理中的一个重要操作。在前期工作中,提出了GPU批次索引表求交框架,在这个框架中,若干查询在CPU端组织成为一个批次,并在GPU上同时处理一个批次内的若干查询任务。这个框架可以有效地利用GPU大规模并行计算的能力,在这个框架中的一个关键步骤就是利用GPU进行并行搜索,这个步骤为整个流程中的瓶颈,因此本文主要集中讨论GPU求交算法中使用的搜索算法。本文同时研究了文档重排后
本文对多尺度有限元程序msFEM的CPU、GPU双精度以及GPU混合精度三个版本进行了测试.msFEM_CPU在美国橡树岭国家实验室的Jaguar上实现了从2万到20万核的可扩展性测试,在80亿自由度的测试规模下,20万核的并行效率为71%.msFEM_GPU采用MPI+OpenMP+CUDA的混合并行模式实现了GPU全双精度和混合精度两个版本.GPU版在Jaguar和华南超算中心(深圳)的曙光6
理论证明蒙特卡洛模拟法能够精确估计汇率的VaR,但此方法计算量较大,实际中较难运用。在CUDA平台下利用GPU加速运算能很好的解决海量数据运算问题。在此假设汇率基本服从随机游走,由几何布朗运动模型得到汇率波动率的模型后,采用蒙特卡洛方法模拟法预测出外汇的远期汇率,并给出一定概率下的VaR估计。该实验结果对投资者和金融机构有很大的参照价值。
作为承载云服务的基础设施,数据中心通常会在不同的应用和租户之间进行共享.传统的带宽分配需要预留带宽,但是流量行为难以预测.InfiniBand(IB)是HPC中主导的互联技术,同时其在数据中心的应用也正日益获得工业和学术界的关注.本文提出了一种基于端到端IB拥塞控制的IB带宽分配算法IBFS(IB Fair Share).文中证明了IB拥塞控制能够达到流级的公平性,IBFS算法通过动态配置QP的(
目前基因拼接软件中应用最广泛的技术是基于De Bruijn图的基因拼接算法.随着第二代基因测序仪的大量使用和基因测序在工业中的广泛应用,常常需要对长达数十亿bp长度的基因组测序数据进行处理.针对海量的基因测序数据,快速、高效和可扩展的基因拼接算法变得非常重要.虽然已出现了一些并行拼接算法,如YAGA,开始研究这些问题,但是拼接过程中时间空间消耗较大的构图和单链化简这两大步骤在海量数据的挑战下仍然是
计算机系统的能耗已经成为一个越来越严重的问题.功耗监测是理解能耗问题的基础.本文提出了一种直接测量计算机CPU、内存、磁盘等部件功耗的方法.利用设计的部件级功耗监测系统,获得了SPEC CPU2006、PARSEC 3.0等基准测试程序的细粒度部件级功耗数据,为进一步的能耗研究奠定了基础.
图数据划分方案的优劣是提升并行算法计算效率的重要因素。本文面向GPU程序,定义了一套性能参数和图数据显示参数,为CUDA程序员开发了可视化交互平台,用于交互式调整参数,探究程序性能与数据划分方案之问的关系。该工具针对GPU异构体系结构下的CUDA程序对数据凝聚性读写的特殊要求,对数据以块为单位着色和标号显示,帮助程序员通过观测图的整体布局,调整数据划分控制参数,优化分块效果。在系统实现方面,采用J