论文部分内容阅读
并行计算机体系结构的一个发展趋势是SM P(Symmetric Multiprocessor)集群系统。它们是由拥有多个处理器的SMP节点和连接各节点间的快速网络构成的多级体系结构。SMP集群系统因其良好的性价比、卓越的可扩展性与可用性,逐渐成为当前高性能计算机领域的主流结构。在单个SMP节点中,总线和内存带宽是否满足CPU的需求对于访存密集型应用的性能影响很大。
Intel Bensley平台目前广泛应用在高性能计算SMP节点,其独有的双独立FSB(Front-sideBus,前端总线)架构在某种意义上解决了部分原先单共享总线架构在前端总线上的性能瓶颈。不过随着多核技术的发展,在最新的Bensley双路四核Clovertown平台上,其双独立FSB架构同样成为访存密集型应用的性能瓶颈。
MPI(Message Passing Interface)是目前最重要的一种基于消息传递的并行编程工具,它具有可移植性好、功能强大、效率高等优点,被并行计算机界广泛地接受。MPI目前已经在Windows操作系统的PC机上、UNIX系统的工作站以及并行机上得到实现。
本文的主要研究工作有:
1.分析FSB事件流水线执行方式,并结合访存密集型高性能计算MPI应用的特点,研究访存密集型高性能计算MPI应用运行时的FSB特性。
2.针对Intel Bensley双路四核平台特性,给出了FSB竞争对访存密集型高性能计算MPI程序性能影响的计算模型。为了建立这个性能影响模型,我们引入了一个叫做性能降幅(Speeddown)的变量来描述由于FSB竞争导致的程序性能的影响。一般来说,一个复杂的高性能计算MPI程序可以分割成若干个基本块,其中每个基本块内部在运行时对FSB有持续均衡的压力。
2.1.以基本块作为突破口,通过分析FSB压力和程序读写内存次数的关系,研究单一基本块程序绑定在核心0上时的地址总线压力和数据总线压力,推导出当创建2/4/8个基本块程序并绑定在特定数量核心上,由于FSB竞争导致的程序性能降幅。
2.2.对于复杂访存密集型高性能计算MPI程序,我们主要集中讨论其计算部分时间由于FSB竞争导致的性能影响。因为计算部分时间可以分成并行和串行两部分,借助Amdahl定律和先前推导的单一基本块的结果,分别对其并行和串行部分分析性能降幅。然后介绍一种方式将两者合并形成最终的性能影响的计算模型。
2.3.通过编写MPI例程验证单一基本块程序的性能影响模型,实验结果与预期高度吻合。同时,利用NPB(NAS Parallel Benchmark)基准测试的其中五项(BT,EP,IS,LU和MG)作为高性能计算实例来验证访存密集型MPI应用由于FSB竞争带来的性能影响模型。实验结果同样符合我们的预期。