论文部分内容阅读
第6代(sixth generation,6G)无线通信是未来智慧数字社会的关键推动力之一,能提供如超高数据速率、高能源效率、大范围全球覆盖和高度安全等优质的通信服务。为了满足这些服务需求,近年来提出多种技术,如毫米波(millimeter wave,mm Wave)通信、大规模多输入多输出(massive multiple input multiple output,m MIMO)天线阵列和智能反射面(intelligent reflecting surface,IRS)等。mm Wave因其大带宽和易于集成化的天线阵列,促进了m MIMO系统波束成形技术的发展。IRS以低成本和低能耗实现无线通信系统中智能和可重构的传播环境,通过在无线通信中部署IRS,使得发射器和接收器之间的无线信道重组,从而解决mm Wave非视距场景下通信中断问题。因此,在mm Wave、波束成形和IRS三者相辅相成的前提下,针对分布式IRS辅助毫米波多用户多输入单输出(multi user-multiple input single output,MU-MISO)系统下行链路的联合波束成形设计问题展开研究。论文的主要贡献分为以下三个方面:1、针对非视距场景下毫米波MU-MISO系统下行链路的可靠性通信问题,提出一种分布式智能反射面辅助毫米波MU-MISO系统下的联合波束成形设计算法——BCD-P。假设信道状态信息完美的情况以及采用S-V(saleh-valenzuela)毫米波信道模型,该算法在功率和恒模约束下,以多用户加权和速率(weighted sum rate,WSR)最大化为目标,将基站(base stations,BS)处有源波束成形(active beamforming,ABF)和多个智能反射面处无源波束成形(passive beamforming,PBF)矩阵联合求解建模为非凸优化问题。利用闭式分式规划技术解耦该联合优化问题为易于求解的等价问题。根据近似线性规则和分布式连续凸近似(successive convex approximation,SCA)规则,采用非凸块坐标下降(block coordinate descent,BCD)算法交替优化辅助变量、ABF和PBF。并且给出了BCD-P算法的收敛性证明和时间复杂度分析。仿真实验分析了IRS硬件限制等因素对算法性能的影响。仿真结果表明,BCD-P算法可以快速收敛,并且与两种基线算法相比,在降低复杂度的情况下能有效地提高系统传输速率。2、针对IRS无源特性导致信道估计容易存在误差和BCD-P算法在不完美信道状态信息情况下性能下降和不收敛问题,提出一种改进的BCD交替优化算法——BCD-I。假设信道状态信息不完美的情况以及建模具有估计误差的S-V信道模型,该算法同样考虑功率和恒模约束,以多用户WSR最大为目标。利用闭式分式规划技术解耦,采用非凸BCD算法根据近似线性规则和改进的分布式随机连续凸近似规则分别交替优化ABF和PBF矩阵。并且给出了BCD-I算法的时间复杂度分析。仿真结果表明,在不完美信道状态信息情况下BCD-I算法能够收敛,且与BCD-P算法相比显著提高系统传输速率。3、针对传统算法计算复杂度高以及在运行过程中需要不断迭代求解的问题,提出一种基于近端策略优化(proximal policy optimization,PPO)的联合波束成形通用深度强化学习算法,对ABF和PBF矩阵进行联合求解。该算法考虑信道状态信息完美和不完美两种情况,在深度强化学习环境中定义功率和恒模约束,利用WSR作为环境奖励对PPO模型进行训练,智能体通过得到的动作分布产生连续ABF和PBF矩阵。针对IRS位置发生变化时系统性能下降问题,提出一种迁移学习-近端策略优化(transfer learningproximal policy optimization,TL-PPO)联合波束成形通用算法。该算法利用基于模型的迁移学习算法提高训练效率。并且分别给出了PPO和TL-PPO算法的时间复杂度分析。仿真结果表明,PPO算法能够收敛,性能优于BCD-I和BCD-P算法,且信道状态信息的不完美程度并不影响算法性能,TL-PPO算法在环境发生变化时可以减少模型35%的训练时间开销。