面向密集计算加速的定制RISC-Ⅴ处理器设计

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Jany9538235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据和人工智能的发展,对密集计算相关算法的实时性提出了更严格的需求。传统的CPU(Central Processing Unit)平台难以满足海量数据实时处理对日益增长的算力的需求。面向特定领域,设计专用的处理器微架构,定制处理器核心是更高能效的方案。以往的定制处理器往往采用X86或ARM(Advanced RISC Machines)指令集架构,但是此类商用架构存在专利费过高,灵活性不够等问题。而新兴的RISC-Ⅴ架构由于先进的设计理念和完全开源的生态,可以更低成本的针对不同领域进行定制和优化。在计算密集型算法中,最典型的就是卷积运算。无论图像滤波算法、傅里叶变换、DCT(Discrete Cosine Transform)变换还是CNN(Convolutional Neural Network)网络,其中最耗费资源的运算类型都是卷积。本文设计了一款基于RISC-Ⅴ指令集架构的,具有通用卷积加速功能的定制处理器,可以对一维卷积、多种特性的二维卷积以及神经网络进行加速。主处理器使用Rocket Core,由伯克利大学的Krste Asanovic等人开发的一款64位经典5级流水线单发射标量处理器,可以通过由Chisel(Constructing Hardware In a Scala Embedded Language)构建的开源So C(System on Chip)平台Rocket Chip进行配置生成。将卷积加速单元作为协处理器,通过RoCC(Rocket Custom Coprocessor)接口与Rocket Core进行连接,使用自定义指令集对协处理器进行控制。在协处理实现中,本文设计了一种具备高可配置性的线性PE(Process Element)阵列,通过软件随意变换PE单元的组合方式,高效率的加速一维卷积以及多种半径多种步长的二维卷积运算。为了适应不同的应用场景和算力需求,PE单元的数量可以通过参数进行配置。在针对神经网络卷积层的加速中,本文的数据复用方案为:输出特征图全部复用,输入特征图与权重按需复用。配合片上缓存可以减少在神经网络加速时IO带宽的需求。通过对输出特征图进行分块处理,解决复用方案带来的片上缓存太大的问题。将输入特征图缓存设计为多行结构,使得输入缓存灌向PE阵列的带宽增加,进而可以支持多种半径的二维卷积。通过对输入特征图缓存做乒乓处理,提升加速器的处理效率。添加多个输出缓存,在配合输入特征图分块的情况下,实现对中间特征图的100%复用。通过复用PE单元进行池化层设计,在增加少量资源的情况下,实现对最大池化与平均池化的支持。采用基于数据寻址的方式,设计4条RoCC接口的自定义扩展指令,配合译码器与控制器完成协处理器的硬件设计。对协处理器的核心运算单元PE阵列进行功能仿真,分别对一维卷积与多种形式的二维卷积进行仿真,并对波形进行分析说明。使用Rocket Chip的模拟工具,记录在代码执行过程中花费的总周期数。分别对一维卷积以及卷积层进行模拟。在加速一维卷积时,加速比会根据一维序列的长度变化而变化,在输入序列为8096与81时,相比于Rocket Core在同频下可以获得61倍的加速比。在加速神经网络或二维卷积时,相比Rocket Core可以获得119倍的加速比。最终将Verilog代码移植到Vivado环境中进行综合,当协处理器在200MHz的工作频率下,配置81个PE单元,功耗为2.41W。通过仿真与综合,验证了处理器可以高效率的对多种卷积进行加速,并且资源与功耗在可接受范围内。
其他文献
随着无人控制技术的快速发展,各种无人设备相继问世,而水面无人艇作为维护海洋权益的工具和现代化武器,具有广泛的应用前景,已逐渐成为智能装备领域的研究热点。无人艇载雷达作为水面无人艇的主要探测仪器,其性能直接决定了水面无人艇的探测能力。在实际应用中,无人艇往往由技术人员远程操控,在各种极端复杂的场景下完成对目标的实时探测与跟踪。在这个过程中,实时性与稳定性是最基础的两项指标。因此,研究一种适应于无人艇
学位
云计算作为可以为各式各样的应用程序提供服务的分布式计算平台,以其灵活的资源配置和付费模式,得到了行业内的广泛关注。工作流模型则可以用来表示含有一组计算任务的应用程序。云服务提供商则需要针对云环境的异构性,对不同种类的任务进行合理的资源分配,以满足用户提出的服务质量(Qo S)要求。随着问题规模的不断增大和数据量的增长,如何合理地对工作流中的任务进行调度是云服务提供商需要解决的难题之一。在工作流的调
学位
物联网(Internet of Things,IoT)通过创建无处不在的连接使得万物互联成为可能,预计到2025年将有416亿设备连接到网络当中,其中存在大量机器与机器(Machine to Machine,M2M)通信的情况。LoRa技术作为一种低功耗广域网(Low Power Wide Area Networks,LPWAN)技术以其杰出的抗干扰能力以及较远的传输距离受到广泛关注,其上层的Lo
学位
集成电路产业是国民经济和社会发展的重要基石,其芯片大量依赖于进口。近年来雷达信号处理机核心芯片出现断供危机,国产芯片技术研究成为新的趋势。国产芯片申威、飞腾、复旦微电子、国微电子等,在高性能器件研究方面取得了一定的成果,为雷达信号处理机的国产化设计奠定了基础。因此,基于国产化芯片,本文开展雷达信号处理机软硬件技术研究,对推动雷达信号处理机性能提升具有重要价值和意义。论文完成主要工作如下:1、根据雷
学位
随着微型技术的不断发展,电子设备正朝着小型化的趋势迈进。然而这种趋势会使电子元器件的热流密度急剧升高,产生的热量无法及时释放,最终导致元件寿命变短甚至损坏。如今为满足军事作战的需求,相控阵天线阵面的T/R组件数量与功率都在急剧上升,若不能对其进行有效的散热,T/R组件极有可能因为阵面温度过高而无法正常工作。因此,控制天线阵面温度,保障T/R组件正常工作是提高相控阵天线性能的关键。许多国内外学者为提
学位
在通信过程中比较重要也比较基础的一个步骤即为信号检测,信号的有无涉及到通信系统是否进行后续解调等处理。遥测通信中由于通信距离较远,导致接收信号信噪比较低;同时,由于飞行器的高速移动,导致接收信号受多普勒频移的影响,使得接收端难以可靠地检测目标信号的有无。因此本文主要研究在低信噪比和高动态环境下,基于谱特征以及与机器学习中分类技术相结合的信号检测算法。本文首先介绍了遥测通信系统中常用的脉冲编码调制-
学位
无相位平面近场测量方法是天线测量中的一项关键技术。一方面,随着通讯和探测技术的不断发展,电子设备的工作频率越来越倾向于毫米波等频段。此时采用矢量网络分析仪很难测得电场的准确相位。另一方面,在某些特殊的测量场景下,不能使用矢量网络分析仪,而只能采用频谱仪进行测量,那也不能测得电场的相位数据。上述两种情况下都只能测得电场的振幅分布,此时往往使用两个平面进行扫描,通过两个平面上的电场振幅数据,利用相位恢
学位
高放废物处置、地热能源开发和石油资源开采等众多工程领域都涉及裂隙岩体的渗流、传热、应力及化学反应等多物理场耦合问题。本文重点研究了裂隙岩体三维渗流传热问题,包括任意平行裂隙岩体三维渗流传热的半解析模型及算法、随机粗糙裂隙岩体三维渗流传热的数值模拟、随机裂隙岩体三维渗透率的等效连续化方法、地热对井系统三维渗流传热数值分析的局部人工边界方法、高放废物处置系统远场三维热力耦合分析的解析模型及算法。主要研
学位
随着全球城市化进程的加快,具有钢筋混凝土结构的复杂建筑群越来越密集,各种高层建筑物层出不穷,而传统的基于环境传感器和视觉传感器的人数统计方案因为建筑物中的混凝土结构墙体以及其它障碍物的阻挡,常常出现人数统计结果不准确的问题,如果在此类建筑物中出现恐怖袭击或者重大灾难,不准确的情报则会严重影响反恐行动的部署和执行,降低人质营救行动的成功率,同时也不利于开展抢险救援行动。Wi-Fi作为一种便利的无线数
学位
MEMS加速度计是微小型惯性导航系统中不可或缺的元件,有着体积小、精度高、集成度高和应用广等优点,在航空、汽车、智能感知与控制等领域有着无可替代的作用。由于制造工艺和材料特性等原因,MEMS加速度计在实际应用中总会受到多种环境因素的干扰导致其性能的降低,其中温度对其测量结果的影响最为明显,它的改变会使加速度计零偏因子和标度因数等参数受到影响从而使测量结果产生偏差。因此,减小或消除MEMS加速度计由
学位