论文部分内容阅读
随着现代半导体工业的发展,芯片的集成度不断提高,处理器设计朝着分片式的方向发展。对处理器性能的急切需求使充分挖掘程序的指令级并行(ILP)成为一种趋势。在这种背景下,出现了显式数据流执行模型,被业界称为EDGE(Explicit Data Graph Execution)体系结构。EDGE体系结构有块原子执行、静态放置动态发射的特点。分片式的结构需要有将指令映射到硬件上的机制,如何设计这个映射方法使性能达到最优对于EDGE体系结构有非常重大的意义。本文总结了现有映射算法的优缺点并分析了对于性能有影响的各个因素,并且根据增加节点上的旁路来减少通信延时的原理提出并实现了一种相关优先放置算法,即DF(Dependenece First)算法。测试结果表明,DF调度算法比现有的最优算法性能最多提升13%,平均提升2%,该方法显著加快了应用程序的执行速度。本文还对DF算法进行了改进,形成了DF2算法。经过分析,DF算法的复杂度与空间路径调度算法(SPS)相同,均为O(i2)。DF算法在不增加算法复杂度以及硬件开销的情况下,提升了程序的执行性能。本文还将DF算法应用于不同的硬件,以探讨硬件结构与DF算法之间的关系,探寻在DF算法下处理器性能的瓶颈。本文分别将DF算法产生的代码应用于2倍旁路带宽、2倍网络带宽的硬件上。通过研究发现,在DF算法中,旁路带宽对DF算法的性能有很大的影响。经过分析,本文认为硬件旁路带宽限制了DF算法的性能增长。并指出,与网络带宽相比,旁路带宽是影响算法性能的关键因素。使用由DF算法产生的同一个二进制代码,仅仅通过将旁路带宽加倍,本文获得了额外的10%性能提升。