论文部分内容阅读
未来无线网络超高的速率给基带信号处理芯片的设计与实现提出了巨大的挑战,基带芯片不仅需要能够处理多种算法,还需要能够提供极高的吞吐率,然而电子信息设备小型化、低功耗的发展趋势意味着未来的基带芯片需要兼具小面积和低功耗的特性。在摩尔定律放缓的大背景下,这些挑战使得基带芯片的设计与制造难上加难。此外已有的无线基带算法中还面临最优检测与估计、无法建模和难以求解以及缺乏算法与硬件实现联合优化等问题。本文立足于以上问题,对神经网络算法在多个基带算法中的应用进行了深入探究。此外,本文还针对经过神经网络优化的算法,进行算法与硬件的协同优化,提出了高效的专用硬件架构,并在ASIC平台上进行了实现和性能验证。
首先,针对第五代移动通信(5G)系统中的极化码译码,本文提出了深度学习(DL)方法,以优化极化码BP译码和级联的Polar-LDPC码联合译码这两种译码算法。首先,本文提出了二维偏移最小和(2-D OMS)译码算法,以提升现有归一化最小和(NMS)译码的纠错性能。然后,本文利用DL中优化神经网络的方法用来优化和搜索所提出算法中的参数。数值结果表明,在各种码长度上,所提出的2-D OMS与精确BP译码算法之间几乎没有纠错性能上的差距。本文还针对级联的Polar-LDPC码,提出了低复杂度的级联OMS算法,结果显示经过DL算法优化后的级联OMS算法在码长为1024的极化码上,取得了与L=2的CRC辅助的串行抵消列表(CA-SCL)译码算法接近的纠错性能。
上述的优化方法被扩展应用到大规模MIMO系统,深度神经网络(DNN)被用于增强基于消息传递算法的MIMO检测器(MPD)。本文首先介绍了通过展开迭代的MPD算法来构建用于MIMO检测的DNN架构的通用方法。然后结合改进的MPD(包括阻尼置信传播(BP),最大和(MS)BP和简化的CHEMP算法,提出了多种DNN MIMO检测器。所提出的DNN MIMO检查其中未知的校正因子通过深度学习方法进行优化,以达到更好的性能。实验结果表明,与最小均方误差(MMSE),BP和CHEMP等多种最新的MIMO检测算法相比,本文提出的DNN MIMO检测器只需要训练一次,即可重复用于多次检测,而且在保证复杂度相近的前提下,可以实现更好的误码率性能,增加对各种天线和信道条件的鲁棒性。
基于神经网络方法,本文还研究了非线性信道上的均衡问题。文章提出了一种基于神经网络的联合均衡与译码器,无需信道状态信息(CSI)即可实现对接收信号的盲均衡和译码过程。与已有的方法不同,本文使用了两个分离的神经网络。首先,使用一个卷积神经网络(CNN)从具有码间干扰和非线性失真的接收信号中,自适应地恢复出传输信号。然后,一个深度神经网络译码器(NND)对来自CNN均衡器的检测信号结果进行译码。在多种信道条件下,实验结果表明,所提出的CNN均衡器比其他基于机器 学习的方法具有更好的均衡性能。与最先进的神经网络模型相比,所提出的模型减少了约2/3的参数量。此外,该模型可以轻松地以O(n)的复杂度拓展到任意长度的序列。
针对低复杂度的硬件实现,本文对极化码译码和神经网络的推理等各种任务提出了多种量化方案和优化策略,主要贡献在于三个方面:(a)本文提出一种确定极化码BP译码器的定点量化方案和最佳LLR缩放因子的方法,为相应的硬件设计提供了理论指导。(b)此外,针对高效CNN推理,本文提出了一种低比特且无需重新训练的量化方法,该方法可使CNN仅用移位和加法运算处理推理运算。实验结果表明,与其他低比特的量化方法相比,该方法无需在ImageNet上进行重新训练即可达到更高的精度。而与全精度模型相比,所提出的算法取得了5至8倍的压缩比,而硬件实现所需的资源大量减少,同时还保持了系统吞吐量。(c)为了设计和优化通信系统中的神经网络模型,我们提出了一个经过重新训练的迭代优化框架,以找到不同神经网络的高效量化方案。此外,本文提出了卷积神经网络的高效设计方法,在不损失性能的前提下减少了所需的参数和计算复杂度。在调制分类、信道译码器和均衡器任务上,与全精度模型相比,量化并优化后的NN模型仅需4到5位的权重比特和8比特的激活值即可达到与全精度模型相当的性能。优化后模型的大小被显著压缩,推理的硬件复杂度也大大降低。
除了算法的优化外,本文还重点研究了极化码BP译码器和神经网络推理的高效能和可重配置的硬件体系结构。首先,本文提出了可配置的极化码OMS译码器的ASIC硬件架构。该译码器架构可重新配置,以支持三种极化码码长(N =256, 512, 1024)和两种译码模式(2-D OMS和级联OMS)。在65 nm CMOS工艺上实现的极化码OMS译码器对于码长为1024的最大译码吞吐率为5.4 Gb/s,对于码长为256的最大译码吞吐率为7.5 Gb/s,与目前其他最新的极化码BP译码器性能相当。此外,在码长度为1024的级联OMS译码模式下可实现5.1 Gb/s的吞吐量,延迟为200 ns,这优于具有相近纠错性能的CA-SCL(L=2)译码器。
现有的研究利用Winograd和快速傅里叶变换(FFT)等快速算法来减少CNN的卷积运算复杂度,本文针对CNN和生成对抗网络(GAN)模型提出了一种基于ASIC的可重构且低复杂度的加速器,旨在进一步加速CNN中的卷积(CONV)以及GAN中的转置卷积(TCONV)计算。首先,利用费马数变换(FNT),我们提出了两种基于FNT的快速算法,分别降低了CONV和TCONV计算的复杂度。然后给出了基于FNT的加速器的硬件体系结构,以实现所提出的快速算法。还介绍了确定硬件设计参数和优化数据流的方法,以获取最高的性能和效率。此外,我们在65 nm 1P9M工艺上实现了所提出的加速器,并在多种CNN和GAN模型上对其进行了评估和测试。布局布线的后仿真结果表明,我们的设计在VGG-16上实现了288.0 GOP/s的吞吐率以及25.11 GOP/s/mm2的硬件面积效率,优于最新的CNN加速器。此外,在GAN上至少比现有的加速器快1.7倍,并且其能源效率分别是CPU和GPU的275.3倍和12.5倍。
首先,针对第五代移动通信(5G)系统中的极化码译码,本文提出了深度学习(DL)方法,以优化极化码BP译码和级联的Polar-LDPC码联合译码这两种译码算法。首先,本文提出了二维偏移最小和(2-D OMS)译码算法,以提升现有归一化最小和(NMS)译码的纠错性能。然后,本文利用DL中优化神经网络的方法用来优化和搜索所提出算法中的参数。数值结果表明,在各种码长度上,所提出的2-D OMS与精确BP译码算法之间几乎没有纠错性能上的差距。本文还针对级联的Polar-LDPC码,提出了低复杂度的级联OMS算法,结果显示经过DL算法优化后的级联OMS算法在码长为1024的极化码上,取得了与L=2的CRC辅助的串行抵消列表(CA-SCL)译码算法接近的纠错性能。
上述的优化方法被扩展应用到大规模MIMO系统,深度神经网络(DNN)被用于增强基于消息传递算法的MIMO检测器(MPD)。本文首先介绍了通过展开迭代的MPD算法来构建用于MIMO检测的DNN架构的通用方法。然后结合改进的MPD(包括阻尼置信传播(BP),最大和(MS)BP和简化的CHEMP算法,提出了多种DNN MIMO检测器。所提出的DNN MIMO检查其中未知的校正因子通过深度学习方法进行优化,以达到更好的性能。实验结果表明,与最小均方误差(MMSE),BP和CHEMP等多种最新的MIMO检测算法相比,本文提出的DNN MIMO检测器只需要训练一次,即可重复用于多次检测,而且在保证复杂度相近的前提下,可以实现更好的误码率性能,增加对各种天线和信道条件的鲁棒性。
基于神经网络方法,本文还研究了非线性信道上的均衡问题。文章提出了一种基于神经网络的联合均衡与译码器,无需信道状态信息(CSI)即可实现对接收信号的盲均衡和译码过程。与已有的方法不同,本文使用了两个分离的神经网络。首先,使用一个卷积神经网络(CNN)从具有码间干扰和非线性失真的接收信号中,自适应地恢复出传输信号。然后,一个深度神经网络译码器(NND)对来自CNN均衡器的检测信号结果进行译码。在多种信道条件下,实验结果表明,所提出的CNN均衡器比其他基于机器 学习的方法具有更好的均衡性能。与最先进的神经网络模型相比,所提出的模型减少了约2/3的参数量。此外,该模型可以轻松地以O(n)的复杂度拓展到任意长度的序列。
针对低复杂度的硬件实现,本文对极化码译码和神经网络的推理等各种任务提出了多种量化方案和优化策略,主要贡献在于三个方面:(a)本文提出一种确定极化码BP译码器的定点量化方案和最佳LLR缩放因子的方法,为相应的硬件设计提供了理论指导。(b)此外,针对高效CNN推理,本文提出了一种低比特且无需重新训练的量化方法,该方法可使CNN仅用移位和加法运算处理推理运算。实验结果表明,与其他低比特的量化方法相比,该方法无需在ImageNet上进行重新训练即可达到更高的精度。而与全精度模型相比,所提出的算法取得了5至8倍的压缩比,而硬件实现所需的资源大量减少,同时还保持了系统吞吐量。(c)为了设计和优化通信系统中的神经网络模型,我们提出了一个经过重新训练的迭代优化框架,以找到不同神经网络的高效量化方案。此外,本文提出了卷积神经网络的高效设计方法,在不损失性能的前提下减少了所需的参数和计算复杂度。在调制分类、信道译码器和均衡器任务上,与全精度模型相比,量化并优化后的NN模型仅需4到5位的权重比特和8比特的激活值即可达到与全精度模型相当的性能。优化后模型的大小被显著压缩,推理的硬件复杂度也大大降低。
除了算法的优化外,本文还重点研究了极化码BP译码器和神经网络推理的高效能和可重配置的硬件体系结构。首先,本文提出了可配置的极化码OMS译码器的ASIC硬件架构。该译码器架构可重新配置,以支持三种极化码码长(N =256, 512, 1024)和两种译码模式(2-D OMS和级联OMS)。在65 nm CMOS工艺上实现的极化码OMS译码器对于码长为1024的最大译码吞吐率为5.4 Gb/s,对于码长为256的最大译码吞吐率为7.5 Gb/s,与目前其他最新的极化码BP译码器性能相当。此外,在码长度为1024的级联OMS译码模式下可实现5.1 Gb/s的吞吐量,延迟为200 ns,这优于具有相近纠错性能的CA-SCL(L=2)译码器。
现有的研究利用Winograd和快速傅里叶变换(FFT)等快速算法来减少CNN的卷积运算复杂度,本文针对CNN和生成对抗网络(GAN)模型提出了一种基于ASIC的可重构且低复杂度的加速器,旨在进一步加速CNN中的卷积(CONV)以及GAN中的转置卷积(TCONV)计算。首先,利用费马数变换(FNT),我们提出了两种基于FNT的快速算法,分别降低了CONV和TCONV计算的复杂度。然后给出了基于FNT的加速器的硬件体系结构,以实现所提出的快速算法。还介绍了确定硬件设计参数和优化数据流的方法,以获取最高的性能和效率。此外,我们在65 nm 1P9M工艺上实现了所提出的加速器,并在多种CNN和GAN模型上对其进行了评估和测试。布局布线的后仿真结果表明,我们的设计在VGG-16上实现了288.0 GOP/s的吞吐率以及25.11 GOP/s/mm2的硬件面积效率,优于最新的CNN加速器。此外,在GAN上至少比现有的加速器快1.7倍,并且其能源效率分别是CPU和GPU的275.3倍和12.5倍。