【摘 要】
:
相比于通用处理架构与专用处理架构,粗粒度可重构架构(Coarse-Grained Reconfigurable Architecture,CGRA)因兼具高能效和高灵活性而有着独特的优势。然而CGRA因数据流驱动的特性无法高效甚至有效处理应用中存在的控制流结构。基于触发指令的执行方案(Triggered Instruction Architecture,TIA)作为一种比较全面的控制流处理方案,虽
论文部分内容阅读
相比于通用处理架构与专用处理架构,粗粒度可重构架构(Coarse-Grained Reconfigurable Architecture,CGRA)因兼具高能效和高灵活性而有着独特的优势。然而CGRA因数据流驱动的特性无法高效甚至有效处理应用中存在的控制流结构。基于触发指令的执行方案(Triggered Instruction Architecture,TIA)作为一种比较全面的控制流处理方案,虽然能够同时实现处理循环分支与条件分支的基本功能,但由于每条指令都需要触发执行并且执行时存在寄存器依赖,使得该方案的处理性能存在不足。本文改进了TIA方案中每条指令都需要触发执行的机制,通过重新定义指令的触发标志,使得在指令顺序确定的情况下,一次性触发多条的指令,并通过增加断言标志来根据指令的类型控制断言寄存器的更新情况。多触发机制减少了断言寄存器依赖关系与触发次数,以此带来性能的提升。改进后的TIA方案虽因一次性触发多条操作在处理浅层长路径结构时具有较大的性能收益,但在处理嵌套层数较多、分支路径较短的分支结构时,需频繁地进行触发执行操作,性能收益不大。因此本文将控制流进行分类,将浅层长路径结构采用多触发的机制处理;将深层短路径结构采用基于标签的全断言执行方案(Tag-Based Full Predication,TFP)处理,即通过标签对比及并行化标签改写的方式处理,同时在此基础上消除了条件分支指令执行时的标签对比操作,以进一步提升性能。本文将改进后的TIA方案称为混合触发的全断言执行方案(Hybrid Triggered Full Predication,HTFP),并基于改进方案的原理对PE(Processing Element)单元进行了硬件架构设计。本文对所改进的方案及TIA方案、TFP方案进行了RTL实现,以从Mibench和SPEC CPU2006中提取的控制密集型循环体为验证案例,基于手工映射的方式,使用Vivado仿真器对三种方案进行功能验证及性能对比分析,通过抓取仿真过程的中间变量结果与C代码的执行结果进行比对来验证三种方案的功能正确性。在功能正确的基础上,对三种方案进行性能对比分析。本文在TSMC 40nm,50MHz的实验条件下,基于Design Complier对三种方案进行综合以实现功耗评估。实验结果表明,本文所改进的方案相比于TIA方案和TFP方案性能分别提升了23.6%和16.9%,功耗分别增加了2.38%和9.75%。
其他文献
打印机图像处理引擎负责处理打印文件的图像解码,常见的打印机图像解码包括黑白或红黑图像的JBIG解码和彩色图像的JPEG解码。在打印机中,图像解码占据了处理器执行时间的一半以上。图像解码的速度直接影响到打印机的打印速度,是打印机的主要瓶颈之一,提升图像解码速度至关重要。论文首先基于龙芯2K1000B处理器,面向国产打印机,选用JBIG/JPEG解码函数库和龙芯2K1000B集成的视频处理单元(Vid
随着信息技术的发展,各行各业都在数据科学的驱动下获得了新的生机。金融行业作为数据高度相关的领域,也面临着数字化和智能化的转变。知识图谱技术是人工智能与传统数据库结合的产物,旨在利用信息抽取技术,从非结构化的文本中提取人类所关注的知识,并通过知识图谱的形式存储。在金融领域,数据资源不仅仅包含诸如企业信息、人员信息这些知识图谱可覆盖的“静态”知识,还包含着以事件为核心的“动态”知识。事理图谱技术关注的
为了缓解日益严重的“功耗墙”和“存储墙”问题,现代高性能处理器开始广泛采用具有多层级Cache的多核体系架构。但是这一架构的复杂性使得其共享Cache的解析建模极为复杂:首先,不同核之间竞争共享Cache的容量资源,并且任务间数据共享会使情况更加复杂;第二,每个核的私有Cache不仅会过滤一部分来自CPU的访存请求,由于多核一致性问题还导致出现难以预料的私有Cache一致性缺失。本文提出了一种可以
目的肥胖及肥胖相关的炎症在促进肿瘤发生发展中扮演着重要作用,近年来,乳腺白色脂肪组织(WAT)的慢性炎症引起了广泛关注。本研究旨在探讨乳腺癌患者WAT炎症与超重或肥胖、更年期状态、肿瘤特征、代谢综合征相关因子之间的关系,以及脂肪细胞直径与WAT炎症严重程度和身体质量指数(BMI)之间的相关性。方法乳腺脂肪组织中巨噬细胞包绕垂死或死亡的脂肪细胞形成的冠状结构(CLS-B)被认为是乳腺WAT炎症的标志
近年来,无刷直流电机无位置传感器控制凭借其诸多优点,在生活、生产中的应用越来越广泛。在诸如电动工具的生产领域,存在着无刷直流电机无位置传感器控制下无反转、快速、平滑起动的实际需求,电感法起动凭借着其能闭环起动运行的特点,被广泛应用于该场景下的起动控制,然而传统电感法起动存在着定位时间长的缺点,影响了电机的起动时间和加速性能。因此,为了获得更好的起动控制效果,更满足实际生产需求,优化设计电感法起动控
多输入多输出(Multiple Input Multiple Output,MIMO)与正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术的结合提高了数据传输速率和系统容量。而MIMO-OFDM系统的高性能信号检测算法复杂度高,实际应用中,面积优化的信号检测设计才具有工程实用价值。本文首先对2×2MIMO系统的信号检测算法建模分析,并
随着工艺发展和SRAM集成度的提高,随机工艺波动引起的SRAM良率问题日渐突出。常用的蒙特卡洛方法(Monte Carlo,MC)评估良率时需要仿真大量样本,比较耗时。另一方面,电路的多失效机制或自身结构会造成失效样本存在于多个失效域中,使现有的加速MC的良率评估方法不够准确。在多失效域场景下快速而准确地得到SRAM的良率是一个挑战。论文从自适应重要性采样(Adaptive Importance
自古以来天气与人们的生活息息相关,随着科技的快速发展,自动气象站的出现极大地帮助了人们的数据采集工作,增强了人们对气象的感知能力。然而,目前的自动气象站较多使用RS-485或CAN总线的有线传输方式,对于无线传输方式的研究较少,本文将结合无线通信模块和云技术实现气象数据的无线传输功能以及设备的远程在线升级功能。本文在嵌入式技术的基础上,设计了一套使用无线通信技术以及MEMS传感器的气象数据采集与传
随着电路集成度的提升,“黄金标准”蒙特卡洛仿真的耗时越来越不可接受,统计静态时序分析方法(Statistical Static Timing Analysis,SSTA)可以加速电路时序分析。但是在低电压下,工艺参数波动导致电路延时呈现非高斯分布,传统的SSTA模型(比如偏正态模型(Skew Normal model,SN))估计的延时分布误差变大。因此,论文研究在低电压下考虑工艺波动参数的影响,
物联网节点为了降低功耗,在芯片中引入动态电压频率调节(Dynamic Voltage Frequency Scaling,DVFS)技术,在满足芯片不同状态下性能需求的同时降低功耗。在物联网芯片中实现DVFS技术面临很多挑战,传统的振荡器结构在DVFS应用中有着频率切换时间长、启动速度慢等缺点。为了提高启动与频率切换速度、减少工艺、电压、温度对频率的影响,本文设计了一种基于数字分频选相的低功耗数控