论文部分内容阅读
数字信号处理器(DSP)是一种特别适合于数字信号处理运算的嵌入式微处理器。随着其在通信、多媒体处理等高端领域的广泛应用,对DSP性能的要求也越来越高,因此研究和设计高性能DSP就具有较大的科研和应用价值。本文依托于面向软件无线电的“YHFT-Matrix DSP”的开发与研制,旨在研究和设计符合YHFT-Matrix DSP高标准要求的向量运算单元和归约网络。本文研究了DSP的结构特点和向量运算技术的实现,并介绍了国际上将相关向量运算实现技术应用于面向3G和4G无线通信的DSP。概述了YHFT-Matrix DSP的体系结构,以及向量运算单元和向量数据交互网络的特点,指出向量运算单元的设计需结合低功耗技术,向量数据交互网络要满足灵活性和便于使用的要求,并根据开发者的反馈信息总结了现有运算单元值得提升和改进的功能点。将低功耗设计方法和RTL级的低功耗设计技术应用于向量运算单元的设计。用门控时钟技术实现了可变宽度的向量处理单元VPU。分析了定点SIMD IALU的应用需求以及相关指令,以进位选择SIMD加法器为核心,结合操作数隔离低功耗技术,设计并实现了低功耗定点SIMD IALU。基于分离基数的基4除法算法,结合状态赋值低功耗技术,设计了定点除法器,支持有符号和无符号除法运算,数据通路为8/16/32位SISD/SIMD模式,可工作于固定执行周期模式和可变执行周期模式,两种模式分别适用于向量处理单元VPU和标量处理单元SPU。以矩阵乘法算法为例,比较了归约的软件实现方式和硬件实现方式,结果表明在增加面积开销的条件下硬件实现方式对算法具有明显的加速作用。在定点归约网络的设计中,引入归约树模型实现了定点归约网络的完整平均分组,以隐式自增指定目标VPE的方式实现了定点归约网络的循环编程。研究了浮点归约的实现方式,指出由于浮点运算单元巨大的硬件面积开销,浮点归约网络应采用软硬件相结合的实现方式。基于YHFT-Matrix DSP中定点归约网络的分组模式,给出了一种支持浮点混合运算归约网络的实现方案:用SPU配置浮点归约运算类型,通过专用的混洗网络搬移操作数,并调用向量运算单元中的浮点运算部件实现计算,从而完成浮点归约操作。介绍了YHFT-Matrix DSP的逻辑功能验证流程,编写基于Verilog语言和Perl脚本语言的运算部件模块级测试平台。用DC综合工具对实现的三个运算部件在TSMC65nm工艺下进行了逻辑综合,给出综合结果和性能比较,结果表明三个运算部件均能达到700MHz工作频率的设计要求。介绍了4核YHFT-QMBase芯片的仿真测试和单核的性能评测。