【摘 要】
:
随着万物互联的智能时代到来,精简指令集(Reduced Instruction Set Computing,RISC)的优势愈发突显,而作为开源的精简指令集,RISC-V指令集更适合于当下生态开放的环境。为提高指令级并行度,现通用高性能处理器都采用了乱序超标量架构,由于指令乱序调度、分支预测等设计的复杂性,乱序超标量架构一直是处理器领域的研究热点。本文进行了基于RISC-V指令集的乱序超标量处理器
论文部分内容阅读
随着万物互联的智能时代到来,精简指令集(Reduced Instruction Set Computing,RISC)的优势愈发突显,而作为开源的精简指令集,RISC-V指令集更适合于当下生态开放的环境。为提高指令级并行度,现通用高性能处理器都采用了乱序超标量架构,由于指令乱序调度、分支预测等设计的复杂性,乱序超标量架构一直是处理器领域的研究热点。本文进行了基于RISC-V指令集的乱序超标量处理器研究,研究内容主要可分为以下几点:(1)对稳态下高吞吐率的乱序发射架构进行了研究,并针对传统发射架构高IPC(每周期指令数,Instructions Per Cycle)和低延迟存在矛盾的问题,设计了一种基于指令凋零的乱序发射架构。该发射架构在原有的指令发射队列的基础上添加了一个FIFO队列——沉降池,当指令的年龄大于一定阈值时,指令会由发射队列进入沉降池,在沉降池中的指令可以被无条件发射,该阈值可通过沉降池的状态进行动态调节。同时为进一步提高发射架构的性能,还对指令分配电路、指令请求电路以及指令唤醒电路进行了优化。经过测试,所设计的乱序发射架构相较于带有随机仲裁逻辑的发射架构,IPC可提高25%,且电路延迟只相差6%,稳态下吞吐率提高17%。而相较于带有传统年龄仲裁逻辑的发射架构,电路延迟可降低34%,而IPC只相差7%,稳态下吞吐率提高了24%。(2)对分支预测实例化过程中的性能退化问题进行了研究,发现性能退化会由序列别名冲突、无法获取先验知识、存储器分块化、统计偏差等问题造成。前三个问题可以通过去除先验知识、设计重分配策略、设置状态数合适的饱和计数器来消除,然而统计偏差无法从算法层面有效解决。针对该问题本文设计了面向RISC-V的分支预测辅助器,主要通过对主分支预测器进行统计偏差矫正以及对含有不稳定控制流的循环体进行单独预测的方法,尽可能减小统计偏差,从而进一步提升分支预测器的准确率。实验结果表明,Gshare分支预测器以及TAGE分支预测器配备了分支预测辅助器后分别有2.68%与2.12%的Core Mark性能提升。(3)基于经过优化的处理器核,构建了RISC-V乱序超标量处理器So C,可支持1~4个处理器核,内部基于Tile Link总线进行数据传输,并且挂载有SPI、UART、GPIO、调试模块等外设。同时针对该So C,基于SPI接口对蓝牙组件进行了开发,使So C可应用于低功耗无线传输领域。(4)基于FPGA验证平台进行了原型验证、系统演示和性能测试;基于65nm SMIC工艺库,使用Design Compiler完成了综合以及电路延迟的评估。结果表明该So C可进行引导Linux系统并执行相关应用程序,还可利用Open OCD以及GDB使用调试系统,性能最高可达4.8Core Mark/MHz,优于BOOMv2的3.77Core Mark/MHz。综上所述,本文研究了稳态下高吞吐率的乱序发射架构,以及分支预测实例化过程中的性能退化问题,并基于上述研究构建了RISC-V乱序超标量处理器So C,最终进行了FPGA的原型验证和系统演示,实验结果表明Core Mark性能优于BOOMv2。
其他文献
运动目标检测与跟踪技术作为计算机视觉领域重要研究方向之一,其被广泛应用于智能监控、交通系统和人机交互等多个领域。而在实际的应用场景中,往往存在动态背景、光照变化、遮挡、尺度变化和快速运动等复杂干扰的影响,给运动目标的检测与跟踪产生巨大的困难和挑战。本文针对鬼影及阴影的消除方法、特征融合方法和模型更新策略进行研究,具体研究工作如下:(1)针对视觉背景提取(Visual Background Extr
自旋转移力矩随机磁存储器(STT-MRAM)是一种新型的非易失性存储器,被认为是最具有潜力替代Flash的新型存储器之一,在未来的各行各业均具有广泛的应用前景。本论文针对STT-MRAM外围电路的两个主要组成部分:读电路和写电路,进行了相关的设计与研究。首先,针对深纳米级的STT-MRAM,设计了一种具有动态参考和可变容差的新型读电路,实现了极高的传感裕度(SM)和较小的读取干扰(RD);然后,设
视觉目标跟踪经常被应用于无人机、视频安防、智慧城市等领域,其任务是给定初始帧中待跟踪目标物体的信息,在后续视频帧中预测目标的实际位置和尺寸大小。在复杂背景环境下既保证跟踪精度又保证跟踪速度是视觉目标跟踪任务的难点。本文以深度孪生网络结构为基础,针对当前视觉目标跟踪算法中存在的难点问题展开研究,具体研究成果如下所述:(1)通常卷积网络提取到的特征包含低层、中层和高层抽象信息。许多孪生网络类跟踪算法在
信息物理系统(Cyber Physical Systems,CPSs)是将传感、通信、计算和控制过程高效结合而形成的复杂系统。目前,信息物理系统已在智能电网、医疗监测、智慧工厂、智能交通等众多领域得到广泛应用。不同于以往封闭式的工业内部网络,通讯网络的接入极大地提高了系统运行效率同时,也带来了许多安全问题。近年来针对信息物理系统的攻击事件频频发生,造成巨大的经济和社会损失,这已经引起了国内外相关学
图像相较于文字而言,传递信息的方式更为简单直接,因此运用更为广泛,但图像在采集、传输和使用过程中,往往会引起不同程度的失真,这就需要质量评价算法对其进行评估。现阶段图像质量评价的主流算法大多基于机器学习(特别是深度学习),现有研究表明机器学习算法对数据的对抗性扰动极其不稳定,存在鲁棒性和安全性问题。基于此本文研究了一系列的对抗性扰动样本来攻击现有图像质量评价算法,找出其漏洞,希望本文的攻击方式能让
随着物联网应用与规模的持续增长,同时带来了空前的网络安全威胁和安全风险。对此学术界提出利用威胁情报来对日趋复杂的安全问题进行预警和预测,威胁情报作为一种网络安全大数据,可以有效帮助防御者更好地提升网络安全防护能力[1]。在此,如何高效构建威胁情报就成了一个核心问题。然而,当前在信息安全领域,威胁情报普遍存在着冗余度较高、内容单一、标准不统一的缺陷,难以共享。对此本文通过对恶意代码和非结构化网络威胁
随着网络通信技术和集成电路制造工艺水平的不断提高,系统间的信息交换变大。传统的并行传输接口技术传输数据时,具有抗干扰能力弱、时钟偏斜大和传输距离短等缺点,导致传输接口成为限制数据传输速率的瓶颈。为了满足日益增长带宽的需求,高速串行接口SerDes逐渐取代传统的并行接口,成为了高速接口的主流技术。SerDes通常采用差分的传输方式,差分传输方式具有抗干扰能力强和传输距离远的优点。SerDes作为主流
目标跟踪一直是计算机视觉研究领域的一个重要分支,其通过对视频帧中感兴趣的部分进行数字化处理与定位,从而实现有效跟踪。近几十年来,由于研究人员的不断努力,涌现出许多优异的跟踪算法。与此同时,该项技术也在多个生活场景中得到广泛的应用,比如收集交通数据进行交通指挥监视、自动驾驶中用于估算障碍物运动轨迹的视觉导航、医学诊断中超声波图像的自动跟踪分析等等。随着研究与应用的深入,现实场景中诸如光照、遮挡、平面
演化进化算法作为经典的启发式搜索算法,有着优异的性能表现,是解决各类实际问题的重要工具。随着演化进化算法在科学与工业领域的研究与应用越来越广泛,对于其求解效率的要求也在不断地提高。演化进化算法在求解大规模优化问题时的性能表现难以满足高效率的需求。通过在高性能集群上进行并行化研究来解决这个问题具有重要的现实意义。神威·太湖之光拥有超过125PFlops的峰值运算性能,可以为提升演化进化算法求解大规模