论文部分内容阅读
当今社会,无线通信为人们打开了俯瞰世界的视野,并逐步成为人们生活中密不可分的一部分。然而,随着社会的不断进步,无线通信的发展面临着诸多挑战。一方面,新兴概念如虚拟现实(virtual reality,VR)、物联网(Internet of things,Iot)、智能制造等的出现对无线通信的吞吐率、延迟、可靠性等方面均提出了新的更高要求。而另一方面,适合无线通信的频谱资源又非常有限。因此,增强对现有频谱的利用率是满足未来无线通信需求的不二选择。多入多出(Multiple input multiple output,MIMO)技术能够在不明显提高发射功耗的基础上显著提升频谱效率,因此受到了广泛关注。扩大MIMO系统规模,深度挖掘MIMO技术的潜力对解决未来无线通信面临的高要求和频谱资源有限之间的矛盾具有重要意义。然而,在大规模MIMO技术实际应用之前还需要克服诸多障碍,其中就包括MIMO检测的问题。MIMO检测涉及到较为复杂的矩阵运算,如排序的QR分解、格基规约、矩阵逆等。随着天线规模的扩大,这些运算不仅复杂度极大提升,而且延迟和吞吐率等性能也不断恶化。因此,开发更高效的MIMO检测算法及硬件结构对未来MIMO技术的发展具有重要价值。在这种背景下,本文将主要贡献总结如下。排序的QR分解(Sorted QR decomposition,SQRD)技术在MIMO系统中应用广泛,但是现有的关于SQRD的文献大多只关注矩阵分解环节,因为排序环节在小规模MIMO系统中并不起眼。然而,随着矩阵规模的增大,由排序步骤带来的延迟在系统总延迟中的比重越来越大,甚至占到了主体地位。为了解决排序引发的延迟问题,本文提出了一种分组排序的MGS算法(Group-sorted MGS,GMGS)。该算法一次排序可以预测性地选择多个列向量,使后序的矩阵分解进程可以在多个列向量中连续进行,从而减少了列向量等待时间。此外,GMGS算法中所有的除法和开根号运算全部转换为较为简单的乘法运算,因此GMGS算法比传统MGS算法更有利于硬件设计。为了测试GMGS算法的预测排序机制在降低延迟的同时所带来的负面影响,本文还设计了MIMO仿真链路并将GMGS算法作为一种信道预处理算法进行仿真。该仿真过程中对天线数、译码器类型等进行了多种不同配置。仿真结果表明,GMGS算法在降低延迟的同时,对MIMO检测性能和格基规约算法的复杂度均不产生明显影响,而且GMGS算法的延迟降低效益在大规模MIMO系统中更加显著。基于GMGS算法,本文还设计了两个面向16×16的MIMO系统的硬件结构。该结构采用了深度并行的流水线结构,以及模块复用技术。RTL综合结果表明,两种结构的处理延迟分别为0.32us和0.26us,优于其他同类设计。上述的GMGS算法虽然在延迟方面性能优越,但是在吞吐率和面积方面稍显不足。为了克服这些问题,本文还提出了一种基于松弛排序的GR算法(Sorting-relaxed GR,SRGR)。该算法在传统的GR算法的基础上,采用了细粒度高并行的CORDIC(Coordinated rotation digital computer)算法以达到低复杂度和高吞吐率的目的。为了缓解CORDIC算法拖尾现象引发的延迟问题,SRGR算法采用了一种松弛排序策略。该策略不仅可以一次选择多个列向量,而且在排序依据方面还采用了更加简单的一范数模,从而有效地降低了系统延迟和复杂度。基于SRGR算法,本文还提出了对应的CORDIC阵列硬件结构。该结构中的所有CORDIC模块均可配置为向量模式或者旋转模式,因此矩阵的对角元和非对角元都可以用同一个CORDIC模块进行处理,减轻了数据转发的复杂度。在松弛排序策略的影响下,该结构中的空闲时钟数量大幅降低,延迟性能也得到了较好的改善。最后,本文在65nm工艺下对该结构进行了综合,并与现有的代表性设计进行对比。对比结果表明,SRGR结构在延迟、吞吐率、面积和面积效率方面均优于其他同类设计。格基规约(Lattice reduction,LR)技术在MIMO检测中具有重要地位,该技术可以显著提升MIMO检测的性能,或者在同等的性能约束下降低MIMO译码的复杂度。在LR技术中最著名的是LLL(Lenstra–Lenstra–Lovász)算法,该算法总是能够为同样的格点找到接近最优的格基。然而,由于并非每次迭代都需要进行列交换,标准的LLL算法存在着低硬件效率的问题,而且这种问题在大规模MIMO场景中愈发严重。为此,本文提出了一种并行的贪婪LLL算法(Parallel greedy LLL,PGLLL)。该算法只对存在列交换的迭代进程进行处理,从而显著提升了该算法的硬件效率。相比于传统的贪婪LLL算法,本文的PGLLL算法采用了一种并行的算法结构,该结构中每一级都被分解为若干个独立的迭代进程,因此多个进程可以同时被选择以增强算法的收敛速率。在该结构的基础上,PGLLL算法还采用了一种新的迭代选择策略,该策略综合吸收了传统选择策略的低复杂性和高选择效率的优势。链路仿真结果表明,PGLLL算法在16×16的MIMO系统中只需要6级迭代就可以实现接近于标准LLL算法的性能,而其他贪婪LLL算法需要十几级甚至几十级的迭代。因此,PGLLL算法具有低延迟的潜力。此外,PGLLL算法每一级只需要处理两个进程,而其他非贪婪LLL算法如果采用相同的算法结构每一级需要处理8个迭代进程,因此PGLLL算法还具有低复杂度的潜力。更重要的是,本文首次提出了基于贪婪LLL算法的硬件结构并在65nm工艺下完成了频率综合。实现结果表明,本文的PGLLL结构在吞吐率和延迟方面均具有较大优势。