基于多智能体强化学习的车联网频谱接入方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：liongliong599

【摘要】

：

【作者】

：

向平

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

车联网（Vehicle-to-everything,V2X）通信将是未来智慧道路交通体系中不可或缺的一环,V2X技术将道路交通中的各参与主体联系起来,能够提升道路交通效率、减少交通事故、增强安全、丰富驾驶者车载体验。由于车联网通信系统中可能同时存在多种类型用户设备（Vehicle User Equipment,VUE）,其服务质量（Quality-of-service,Qo S）需求各不相同,为了满足不同业务的Qo S需求,需要对频谱资源进行合理分配。然而,车联网通信中,由于频谱资源较为稀缺,以及车辆高速移动导致信道具有快速时变特性,限制了全局信息获取的可行性,使得传统基于中心式优化的设计思路具有一定的局限性。因此,为了适应动态、复杂的车联网环境,设计分布式的车联网频谱接入机制有重要意义。与此同时,人工智能（Artificial Intelligence,AI）技术,如深度强化学习（Deep Reinforcement Learning,DRL）,开辟了数据驱动的全新算法设计思路,近年来在无线通信领域中的应用越来越广泛。本文研究了蜂窝车联网（Cellular V2X,C-V2X）系统中V2I（Vehicle-to-infrastructure）用户和V2V（Vehicle-to-vehicle）用户共存场景下的分布式频谱接入机制设计。基于多智能体强化学习（Multi-agent Reinforcement Learning,MARL）,本文以最大化V2I用户总吞吐量同时满足V2V用户时延可靠性需求为优化目标,提出了两种分布式的频谱接入算法。首先,通过将车联网频谱接入优化问题建模为分布式部分可观测马尔可夫决策过程（Decentralized Partially Observable Markov Decision Process,Dec-POMDP）,本文提出了一种基于MARL的智能体间完全独立工作的分布式频谱接入算法。在该算法中,智能体使用不包含信道状态信息（Channel State Information,CSI）的局部环境观测作为输入,来联合优化子信道和传输功率的选择。通过奖励函数和训练机制的设计,多个智能体学习形成隐式的协作模式。为了更好地适应车联网环境,提升学习性能,该算法集成了一系列先进的DRL技术,并且为了应对多智能体并发学习所引起的非平稳性,该算法还引入了滞后学习机制和并发经验回放（Concurrent Experience Replay Trajectories,CERT）机制,以稳定训练过程。为了解决车联网环境动态变化导致智能体难以训练的问题,该算法还引入了一种近似遗憾奖励（Approximate Regretted Reward,ARR）机制来实现更准确的训练效果评估。仿真结果验证了该算法在V2I用户总吞吐量和V2V用户包交付率两个指标上相对于对比方案的性能优势,并表明所提算法具有良好的稳健性和扩展性。为了实现更好的协作效果,本文还将通信机制引入MARL。考虑智能体不仅学习有效的信道接入策略,并且还通过学习形成通信协议,本文提出了一种通过结合智能体间通信机制来实现显式协作的分布式频谱接入控制算法。在该算法中,智能体由动作选择模块和消息产生模块组成:动作选择模块选择频谱接入动作,而消息产生模块则负责生成交互信息,两个模块均由深度神经网络（Deep Neural Network,DNN）实现,且共享网络参数。为了实现消息产生模块的端到端训练,在算法设计中引入了离散/正则处理单元（Discretize/regularize Unit,DRU）,其在训练阶段对消息产生模块的输出正则化,而在测试阶段离散化,使得消息产生模块的参数可以通过损失函数进行梯度回传更新,实现端到端训练。为减小训练开销,所有智能体共享网络参数,由于每个智能体对环境的观测结果各不相同,因此智能体能表现出不同的行为策略。最终,仿真结果验证了引入通信机制的有效性,所提算法能够实现比同样基于MARL的完全独立工作、没有通信机制的算法更优的性能,表明通信交互机制能够有效提升智能体间的协作效果。

其他文献

大规模RC网络等效缩减关键技术研究

随着集成电路制程越发先进,单位面积上集成的晶体管数目越发庞大,EDA仿真软件需要面对的RC网络也随之不断复杂。在面对越发庞大的网表时,大规模RC网络等效缩减成了解决超大规模RC网络仿真困难的可行方法之一。本文针对传统基于时域的节点压缩算法和基于空间投影的模型降阶方法各自所面临的稠密网络表现差、大规模RC网络压缩率低、高频响应保持匹配度低等问题,在前人的基础上,提出了以下两种大规模RC网络等效压缩算

学位

心理健康成少儿险新着力点

报纸

面向ECO阶段片上电源网设计的凸块电流分析

近几年来,封装制造技术与芯片制造技术提升速度的不一致不仅造成凸块（Bump）数量有限而且使得凸块电流密度随着其尺寸的减小而增大。过高的凸块电流密度将提升热问题和机械问题出现的概率,降低凸块内部结构的稳定性甚至导致产品损坏。因此,设计者需要仔细分析凸块电流大小。同时,在工程变更次序（Engineering Change Order,简称ECO）阶段,底层芯片的设计更改将导致凸块电流需要重新分析。然而

学位

基于深度学习的OTFS信号处理技术研究

第五代移动通信系统（Fifth Generation Mobile Communication System,5G）需要支持移动速度达到500 km/h的高速铁路场景,而在第六代移动通信系统（Sixth Generation Mobile Communication System,6G）的展望中,频段和终端移动速度要求分别提升到了太赫兹和1000 km/h。高速移动和高频段带来的高多普勒频移导致正

学位

基于深度学习的视听语音识别研究

近年来,随着大数据技术、深度学习的进步,计算性能的提升,语音识别取得显著进展。已有研究表明,无噪声环境下基于深度学习的语音识别可以取得优异表现。然而,很多现实场景存在明显噪声,仅使用纯音频很难支撑高精度的语音识别。而视频不受噪声影响,说话人相关的视频模态能够为音频补充语义信息,因此结合视频信息的视听语音识别,可以应对更复杂的环境。通常视频和音频模态的帧率、信息长度不相同,现有的视听语音识别模型在特

学位

基于免授权频段端到端通信系统中的资源优化算法设计

作为第五代移动通信（the 5th Generation,5G）系统的关键技术之一,端到端（Device-to-Device）通信具有低时延、低功耗、高传输速率和高频谱效率等优势。与此同时,相较于有限且昂贵的授权频段,免费的免授权频段受到了广大用户的青睐,因此工业及学术界提出了基于免授权频段的D2D通信（D2D on Unlicensed Bands,D2D-U）,即允许D2D系统与其他通信系统共

学位

新课标下初中学段数学课程内容变化比较研究

通过对《义务教育数学课程标准（2022年版）》与《义务教育数学课程标准（2011年版）》两个版本课程内容从结构和呈现方式两方面进行对比研究，阐明了课程内容的结构和呈现方式变化的意义，并给出了教学启示.

期刊

电调可重构多功能微波材料设计研究

人工电磁材料因其能够实现特殊电磁特性,近20年在学术界引起了广泛关注。为了进一步推进人工电磁材料的实际工程应用,本文开展了电调可重构多功能人工电磁微波材料的设计研究。首先,本文介绍了本构参数、Drude-Lorentz色散、人工电磁材料色散、等效电磁参数反演算法及可重构技术等理论基础,演示了通过设计亚波长电磁谐振单元实现具有特殊电磁特性微波材料的方法,并通过引入可重构器件实现了电磁特性的电调切换,

学位

二硒化铂/超薄二氧化硅/硅异质结自驱动光电探测器

二维（2D）二硒化铂（Pt Se2）具有带隙可调、载流子迁移率高、光电耦合高、空气稳定性强、宽光谱响应良好等特性。因此,Pt Se2材料在高性能光电探测器（PD）和Si-CMOS技术集成的光电应用领域引起了广泛的研究兴趣。然而,目前基于2D材料的PD还面临着一些严峻的挑战,比如制备工艺复杂、成本高昂、光响应范围窄、响应度不够突出、比探测率低以及暗电流较高等,这使得2D PD在商业应用领域难以得到有

学位

基于透射型超表面的可重构性太赫兹轨道角动量波束产生

太赫兹波位于微波段和可见光波段之间,具备电子学和光子学的双重特性,在宽带高速无线通信、物体检测以及目标成像等方面具备潜力和优势。轨道角动量（Orbital angular momentum,OAM）技术的特征是不同模态的OAM波束具有严格正交性,OAM波束在方位角向具有涡旋特性。将太赫兹技术与轨道角动量技术相结合,将在很多领域实现关键技术的突破,尤其是高速无线通信领域,有望克服微波通信带宽小以及光

学位

基于多智能体强化学习的车联网频谱接入方法研究

与本文相关的学术论文