D2D通信系统中基于深度强化学习的资源分配算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户：flame_earth

【摘要】

：

【作者】

：

仲星

【机构】

：

南京信息工程大学

【出处】

：

南京信息工程大学

【发表日期】

：

2022年01期

【关键词】

：

设备直连通信无线携能深度强化学习资源分配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动设备大规模接入网络,能量消耗急剧增长,追求高能效是无线通信系统发展的趋势。设备直连（Device to Device,D2D）通信能够提高数据传输速率以及频谱利用率,为了应对设备能量有限的情况,引入无线携能技术（Simultaneous Wireless Information and Power Transfer,SWIPT）缓解设备能耗,结合SWIPT的D2D通信可以有效改善系统能效。同时,D2D用户复用频谱资源带来了严重的同频干扰问题,制定资源管理策略来协调环境中的干扰是必要的。强化学习可以通过观察变化的环境不断收集新数据,自适应地优化策略,以在动态条件下学习最优解。本文对基于多智能体强化学习的资源分配方法进行了研究,主要工作如下:（1）本文建立了以D2D能效优化为目标的SWIPT-D2D系统模型,通过联合分配资源块、发射功率和功率分流系数,缓解系统中存在的干扰问题,这是一个具有非凸性的多变量优化问题。传统算法需要掌握全局信息,且难以求解复杂模型下的资源分配问题,本文提出了一种基于深度强化学习的优化方案,其中每个D2D对作为具备认知能力的智能体,根据观察到的信道状态信息,以分布控制的方式做出决策。通过采用双Q结构和竞争网络改进智能体学到的策略,实现D2D能效的优化。仿真结果表明了所提方案能够保证算法的收敛性,且对比其他基线算法可以获得更高的能效。（2）针对传统强化学习算法难以处理连续变量的问题,设计了一种结合深度确定性策略梯度算法（Deep Deterministic Policy Gradient,DDPG）的混合深度强化学习资源分配方法,解决了对连续变量离散化而导致的性能损失问题。为了缓解多智能体环境的不稳定性,采用一种基于指纹标记的方法对状态空间做出改进,鼓励智能体以协作的方式探索环境。为了验证所提方案对不同动态环境的适应能力,仿真阶段针对城市和乡村两种场景下的性能进行比较分析,对不同D2D对数量和用户移动速度下的D2D能效进行测试,仿真结果表明了所提方案的有效性和鲁棒性。

其他文献

《史记》“哭”的文学书写

西汉司马迁所著《史记》是我国第一部纪传体史书,这部史书以精准的细节描写和高超的艺术手法屹立于史传文学之林,尤其是司马迁对《史记》中112例“哭”的叙写,使得这部著作独步于史传文学之中。本文即以《史记》中记载的“哭”例为研究对象与切入点,针对司马迁“哭”书写的动因、“哭”的类别、“哭”的内在意蕴、“哭”叙写的表现手法、“哭”叙写对后世文学的影响五个方面进行研究,以期能为司马迁《史记》“哭”的文学书写

学位

司马迁《史记》“哭”文学书写

基于多智能体深度强化学习的大规模交通信号灯控制模型研究

针对基于最长队列优先配时算法的大规模交通信号灯协同控制模式存在的诸多不足，提出了一种基于多智能体深度强化学习的大规模交通信号灯控制模型。首先形成融合经验学习集和实践应用集的高度动态复杂路段交通运行态势经验池；然后利用深度长短期神经网络建立时间正序下的大规模交通信号灯与多智能体之间的物理映射关系；最后利用深度确定性策略梯度算法实现复杂路段大规模交通信号灯最优协同控制。对模型开展了典型需求场景下的仿真

期刊

多智能体深度强化学习大规模交通信号灯协同控制模型仿真验证

区块链技术在志愿服务信息管理系统中的应用空间构想

志愿服务信息管理系统是为志愿者服务队编写的一套信息管理系统,便于对志愿者的信息和服务队日常事务进行统一管理。当前志愿服务信息管理系统存在诸多问题,影响其管理效率和规范化。区块链技术具有去中心化、全网分布式处理、共识机制、集体维护、时间戳等技术特征,将区块链技术引入志愿服务信息管理系统有助于解决其信息记录混乱繁杂、信息处理信度低、信息真实性难以保证和透明度低等问题,具有必要性和可行性。应在志愿服务信

期刊

志愿服务信息管理系统实践困境区块链技术优势

深度强化学习在天基信息网络中的应用：现状与前景

未来天基信息网络（spaceinformationnetwork,SIN）领域将面临结构复杂、环境动态、业务多样等发展趋势带来的挑战。数据驱动的深度强化学习（deep reinforcement learning,DRL）作为一种应对上述挑战的可行思路被引入SIN领域。本文首先简要介绍了DRL的基本方法，并全面回顾了其在SIN领域的研究进展。随后以星地网络场景的中继选择为例，针对大规模节点问题提出

期刊

天基信息网络深度强化学习中继选择网络性能优化

称霸北美的史前巨兽——短面熊

＜正＞熊科动物是当今陆地上体形最大的食肉动物,它们常给人一种笨重、缓慢的印象,与大型猫科动物比起来,少了一份威武与霸气。不过,在距今1万年前的北美洲,曾经生存着一种巨熊,其外形与今天的熊科动物有很大差别,令人印象深刻。在距今3万年前的更新世末期,地球正处于第四纪冰川期,美国加利福尼亚州的气候要比今天湿润。在一座山谷中,不断传来嚎叫声,原来是一群恐狼正在围攻一头年老的长角野牛。长角野牛此时已经筋疲力

期刊

构建检修安全文化,助推检修安全管理

＜正＞股份公司第二炼钢厂机修车间根据工种多、日常检修项目多、检修环境复杂、安全管理难度大等特点,以现场为重点,不断强化职工安全意识、提高职工安全防护技能,确保检修过程中的安全作业,努力做到从人、机、环"三个"方面入手,抓好检修前、中、后"三个"环节,树立"三种"观念;确保检修安全,实现了检修零伤害的安全管理目标。一、从人、机、环三方面入手,做好安全本质化建设人员的本质化安全包括人员的安全生理、安全

会议

福利国家与欧洲志愿服务发展

欧洲志愿服务与福利国家演变历程紧密相连,贯穿其萌芽及发展各阶段。当福利国家陷入困境后,福利多元主义思潮兴起,志愿服务理论也掀起了新高潮。欧洲志愿服务在实践中弥补了福利国家部分功能,并逐渐拥有稳健的运行及支持体系。本文旨在考察福利国家及欧洲志愿服务发展的历史进程,梳理两者之间的理论联系,阐述当今欧洲志愿服务组织运行及支持体系,进而剖析其发展趋势,以期对我国志愿服务发展提供借鉴。

期刊

欧洲志愿服务福利国家福利困境线上志愿服务

基于深度强化学习的多辅助机器人路径规划研究

近年来,我国老龄化愈发严重且下肢失能患者人数逐年增多,人工护理已经无法满足需求,使用辅助机器人完成老年人及失能患者的日常生活辅助是当下研究的一个热点。当使用环境中同时存在多台辅助机器人时,多台辅助机器人的路径规划与避障是一个首要解决的问题。多机器人系统具有较高的动态性,因此传统的路径规划方法不在适用于多机器人系统中,如何让多机器人系统中的路径规划变得更智能是当今研究的重点。近年来机器学习的热度越来

学位

辅助机器人多机器人系统深度强化学习路径规划

面向天地一体化网络的智能接入控制与资源分配机制研究

天地一体化网络是近年来新兴的以天基网络为主体,地面网络为基础,结合空中网络的一体化信息网络,其可为陆、海、空、天各类用户提供随遇接入、全球覆盖、按需服务、安全可靠的信息服务。大力发展天地一体化网络信息服务能力以适应各种场景下的业务需求对于信息时代掌握全球空间资源具有战略性的经济、社会和军事意义,也是谋求新技术、新产业领先优势,实现全球化信息服务的必然选择。随着卫星通信技术及移动通信技术的快速发展,

学位

天地一体化网络接入控制资源分配深度强化学习多智能体

基于深度强化学习的多域联合干扰规避

无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证，针对以上问题，本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避，在考虑系统性能的同时实现可靠通信。首先，将联合智能干扰规避问题建模为一个马尔可夫决策过程（MDP， Markov Decision Process），动作空间包含切换信道、功率控制、改变调制

期刊

干扰规避深度强化学习近端策略优化

D2D通信系统中基于深度强化学习的资源分配算法研究

其他学术论文