众核处理器共享Cache访问均衡性研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:nocloud
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着片上系统规模的不断扩大和处理核数的增多,系统对于片上Cache在容量和速度方面有了更高的要求。为了能够有效利用Cache资源,通常采用非一致Cache访问(NUCA)结构以支持高容量低延迟的Cache组织。另一方面,片上网络由于具备良好的可扩展性在片上众核处理器的互连方式上具有显著优势。因此,基于片上网络的非一致Cache访问体系结构逐渐成为未来众核处理器用于组织大容量Cache的主流系统架构。在该系统架构中,最后一级缓存通常在物理上分布于每个网络节点,Cache存储体在逻辑上共同构成一个统一的共享Cache。当处理核发出Cache访问请求时,其访问时间由访问数据所在的Cache存储体节点与请求处理核节点的距离有关。当系统规模逐渐增大时,访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大。另外,片上网络规模的增大也会促使Cache访问延迟逐渐由网络延迟主导。延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问报文并成为制约系统性能的瓶颈。因此,研究众核处理器的共享Cache访问均衡性对于提升网络性能和系统性能具有重要意义。本文面向共享Cache访问均衡性,通过片上网络路由器结构、片上网络链路分布策略以及众核处理器存储映射策略三个方面对该问题开展多方面的优化手段。本文的主要研究成果以及创新点如下:(1)提出了一种面向公平性的片上网络交叉开关分配策略为了缓解由于片上网络规模的扩大而导致的网络延迟不均衡问题,本文提出了一种面向公平性的交叉开关分配器FOSA。传统的分离式分配器由于采用简单的轮询仲裁机制,因此并不能感知各个端口的拥塞情况,从而也无法掌握哪些端口更容易引起拥塞并造成大延迟网络报文。相比之下,FOSA采用基于公平因子的仲裁器,在交叉开关分配的输入仲裁阶段和输出仲裁阶段能够了解哪些端口更容易引起拥塞,从而优先响应这些端口的报文请求,缓解由于端口拥塞造成的网络报文延迟不均衡现象。实验结果显示,相比于传统的分离式分配策略和最近的TS-Router分配策略,FOSA在延迟标准差上分别平均降低了13.8%和3.9%,在最大延迟上分别平均降低了45.6%和15.1%,表明FOSA能够有效地改善网络延迟均衡性,并减少大延迟网络报文对于系统整体性能的影响。(2)提出了一种负载均衡的片上网络链路分布策略随着片上网络规模的不断增大,由于链路物理位置的不对等性网络流量在链路上的分布是不均衡的。在NUCA结构下,网格网络的中心区域更容易成为网络热点地区,因此中心附近的链路比外围的链路要承受更多的网络流量负载。不同于传统的一致性链路互连结构,本文提出了一种负载均衡的链路分布策略,该策略依据各条链路的流量负载为其分配合适的物理通道数量。本文分析了不同网络规模下网格网络中的流量分布,并给出了相应的负载均衡链路分布设计。实验结果表明,在采用更少的物理通道数量的情况下,负载均衡的片上网络链路分布策略比一致性链路分布策略更有效地均衡网络流量在链路上的分布,并且优化程度会随着网络规模的增长而更加明显。在PARSEC基准测试程序上的实验表明,负载均衡链路分布策略在报文平均延迟上最大降低了6.97%,平均降低了4.22%;而在系统性能方面,在IPC上平均提升了2.1%。(3)提出了一种面向共享Cache访问均衡性的非一致存储映射策略在片上众核处理器中,大延迟的Cache访问报文往往会成为系统访存的性能瓶颈,因此共享Cache访问均衡性对于系统性能有非常重要的影响。众核处理器中的存储映射实际上影响着最后一级缓存中每个Cache传统的平均访问开销,而传统的静态NUCA(S-NUCA)结构一般采用简单的一致性存储映射。本文提出了一种非一致的存储映射方案,旨在通过改变存储映射设计均衡每个Cache存储体的平均访问开销,达到均衡共享Cache访问均衡性的目的。实验结果表明,相比于传统的S-NUCA结构,本文设计的F-NUCA结构在不同的网络规模下均达到了优化Cache访问均衡性的目标,F-NUCA的结构在16/32/64核规模下在延迟标准差上分别平均降低了0.7%/7.7%/19.6%,在最大延迟上分别平均降低了2.9%/11.6%/12.8%。在系统性能方面,在PARSEC基准测试程序上的实验结果显示,F-NUCA结构在16/32/64核规模下分别最大提升了2.1%/3.9%/14.0%,平均提升了1.1%/2.1%/6.7%。
其他文献
多波段光电载荷融合成像具有几何和物理特性共同识别的功能,可有效提升目标识别率和识别效率,在光电成像技术领域发挥着不可替代的作用。传统多波段光电载荷一般选用多镜头分立组合的光学结构,存在系统体积大、图像实时处理能力弱等问题,难以满足对新型光电载荷集成化和灵巧化的需求。伴随着超精密加工技术的发展,多面共体光学元件的形、位高精度加工成为可能,光线可以在不同光学面间多次反射,形成折叠式光学成像系统,并有望
随着装备的快速发展、实战化的使用要求和保障模式的变革,对装备测试诊断提出了更高的要求和更大的挑战,测试模式的变革势在必需,装备测试性工程正是顺应这一变革的产物。当前,一般工程意义上的测试性设计已趋于完善,但针对复杂系统的测试性设计仍存在一些认识上的偏差和未解决的技术流程与关键技术问题,无法满足工程实践需要,如测试性设计中未考虑集成故障和系统级测试,系统级故障诊断隔离难等,为此本文在部委级预研项目的
以癌症为代表的复杂疾病严重威胁人类的生命健康,其形成包含复杂的分子间相互作用和调控过程。以患者临床表现出来的少数几种特征对疾病进行划分,然后对每一类辅以特定的治疗手段往往会在不同个体上有不同的反应,治疗效果难以预测。复杂疾病往往是由遗传因素、环境因素、生活习惯等多种因素之间相互作用导致的,并不遵循孟德尔遗传定律,因而家族病史和遗传相关信息只能说明个体存在患病的概率,但并不意味着就一定会患病,这些都
量子计算作为一种利用量子力学基本原理来完成计算任务的新兴技术,具有经典计算无法比拟的强大计算能力,一经提出就获得广泛关注。尤其在大数质因子分解与Grover搜索等量子算法提出之后,人们更加深刻的认识到量子计算或将为整个信息处理领域的演进与发展带来强劲动力。最近,许多国家颁布了关于量子计算研究的中长期发展规划,不断为该领域的技术实现与应用探索加码提速。作为一项应用广泛的信息技术,数据挖掘旨在从海量数
城市计算是计算机科学以城市为背景,跟城市规划、交通、能源、环境、经济和社会学融合的新兴交叉领域。城市计算的任务,是首先通过感知、获取城市中产生的各类大数据,然后采用高效的数据管理技术、先进的算法以及新颖的可视化技术来分析处理及展示大数据,用以解决城市中存在的诸多问题和挑战,如交通拥堵、空气污染、规划落后等。城市内产生的大数据多种多样,如人或车移动时产生的轨迹数据、各大媒体平台发布的新闻、股市里时刻
随着大数据时代的到来,网络空间的数据资源越来越丰富,其数据量已经远远超出了传统数据分析技术和信息系统的处理能力,寻求海量数据中的有效的信息已成为各领域的迫切需求。知识图谱以其语义网的本质,将客观世界存在的实体、关系、属性等概念以结构化知识的形式连接成庞大的网络,作为人类描述知识的重要载体,为大数据环境下的信息获取提供了便捷快速的解决方法。其中,人物实体作为信息交互的枢纽,往往在寻找目标知识的过程中
当今社会,无线通信为人们打开了俯瞰世界的视野,并逐步成为人们生活中密不可分的一部分。然而,随着社会的不断进步,无线通信的发展面临着诸多挑战。一方面,新兴概念如虚拟现实(virtual reality,VR)、物联网(Internet of things,Iot)、智能制造等的出现对无线通信的吞吐率、延迟、可靠性等方面均提出了新的更高要求。而另一方面,适合无线通信的频谱资源又非常有限。因此,增强对现
面对不断提高的卫星成像分辨率以及快速增加的在轨卫星,天基对地观测卫星系统获取数据的速度和总量都呈爆炸式增长。据报道,我国在轨卫星每天获取的对地观测数据高达数百个TB,而且增长势头强劲,这意味着对地观测大数据时代已经来临。当前,用户对卫星对地观测数据服务提出新要求。在时间分辨率上,用户急需卫星对地观测数据在获取、传输、处理和分发整个流程中的响应趋向近实时化;在空间分辨率上,用户需要卫星图像的分辨率高
在大规模分布式智能视频监控中,终端摄像头连续不断地向远程服务器发送所采集的视频数据,不仅需要较大的网络带宽和存储空间,而且网络传输延迟较大,面临采样视频压缩的严峻挑战。压缩感知能从基于少量采样点获取的测量值中重构原始数字信号,并在采样过程中完成数据压缩,非常适合于在智能监控终端完成高压缩率的监控视频采集。然而,目前的大部分压缩感知方法采用单一测量率进行压缩感知采样和重构,导致重构质量和采样压缩率的
软件是互联网生态重要组成部分,然而由于设计不当、开发失误等原因,软件中存在形式多样的漏洞,对软件安全乃至互联网安全带来严重安全隐患,不仅威胁个人隐私与财产安全,也对国家战略安全造成重大威胁。通过自动化手段挖掘软件漏洞,发现系统安全隐患并及时防护,是保证系统安全、稳定运行的必要手段。因此,软件漏洞自动化挖掘技术研究具有极高学术价值与现实意义。模糊测试是一种应用广泛的软件漏洞自动化挖掘技术。自其提出以