一种基于深度强化学习的协同通信干扰决策算法

来源 :电子学报 | 被引量 : 0次 | 上传用户：hensun01

【摘要】

：

针对协同电子战中跳频通信干扰协同决策难题，通过构建“整体优化、逐站决策”的协同决策模型，基于深度强化学习技术，设计了在Actor-Critic算法架构下融合优势函数的决策算法，并在奖励函数中嵌入专家激励机制以提高算法的探索能力，采用集中式训练方法优化决策网络，使算法能够输出资源利用率最高的干扰方案，并大幅提高决策效率.仿真结果表明，相比于现有智能决策算法，本文算法给出的干扰方案能够节约8%干扰资源

【作者】

：

宋佰霖许华齐子森饶宁彭翔

【机构】

：

空军工程大学信息与导航学院

【出处】

：

电子学报

【发表日期】

：

2022年06期

【关键词】

：

深度强化学习通信干扰决策干扰资源分配优势函数专家激励

【基金项目】

：

国家自然科学基金青年基金（No.6190656）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

称霸北美的史前巨兽——短面熊

＜正＞熊科动物是当今陆地上体形最大的食肉动物,它们常给人一种笨重、缓慢的印象,与大型猫科动物比起来,少了一份威武与霸气。不过,在距今1万年前的北美洲,曾经生存着一种巨熊,其外形与今天的熊科动物有很大差别,令人印象深刻。在距今3万年前的更新世末期,地球正处于第四纪冰川期,美国加利福尼亚州的气候要比今天湿润。在一座山谷中,不断传来嚎叫声,原来是一群恐狼正在围攻一头年老的长角野牛。长角野牛此时已经筋疲力

期刊

构建检修安全文化,助推检修安全管理

＜正＞股份公司第二炼钢厂机修车间根据工种多、日常检修项目多、检修环境复杂、安全管理难度大等特点,以现场为重点,不断强化职工安全意识、提高职工安全防护技能,确保检修过程中的安全作业,努力做到从人、机、环"三个"方面入手,抓好检修前、中、后"三个"环节,树立"三种"观念;确保检修安全,实现了检修零伤害的安全管理目标。一、从人、机、环三方面入手,做好安全本质化建设人员的本质化安全包括人员的安全生理、安全

会议

福利国家与欧洲志愿服务发展

欧洲志愿服务与福利国家演变历程紧密相连,贯穿其萌芽及发展各阶段。当福利国家陷入困境后,福利多元主义思潮兴起,志愿服务理论也掀起了新高潮。欧洲志愿服务在实践中弥补了福利国家部分功能,并逐渐拥有稳健的运行及支持体系。本文旨在考察福利国家及欧洲志愿服务发展的历史进程,梳理两者之间的理论联系,阐述当今欧洲志愿服务组织运行及支持体系,进而剖析其发展趋势,以期对我国志愿服务发展提供借鉴。

期刊

欧洲志愿服务福利国家福利困境线上志愿服务

基于深度强化学习的多辅助机器人路径规划研究

近年来,我国老龄化愈发严重且下肢失能患者人数逐年增多,人工护理已经无法满足需求,使用辅助机器人完成老年人及失能患者的日常生活辅助是当下研究的一个热点。当使用环境中同时存在多台辅助机器人时,多台辅助机器人的路径规划与避障是一个首要解决的问题。多机器人系统具有较高的动态性,因此传统的路径规划方法不在适用于多机器人系统中,如何让多机器人系统中的路径规划变得更智能是当今研究的重点。近年来机器学习的热度越来

学位

辅助机器人多机器人系统深度强化学习路径规划

面向天地一体化网络的智能接入控制与资源分配机制研究

天地一体化网络是近年来新兴的以天基网络为主体,地面网络为基础,结合空中网络的一体化信息网络,其可为陆、海、空、天各类用户提供随遇接入、全球覆盖、按需服务、安全可靠的信息服务。大力发展天地一体化网络信息服务能力以适应各种场景下的业务需求对于信息时代掌握全球空间资源具有战略性的经济、社会和军事意义,也是谋求新技术、新产业领先优势,实现全球化信息服务的必然选择。随着卫星通信技术及移动通信技术的快速发展,

学位

天地一体化网络接入控制资源分配深度强化学习多智能体

基于深度强化学习的多域联合干扰规避

无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证，针对以上问题，本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避，在考虑系统性能的同时实现可靠通信。首先，将联合智能干扰规避问题建模为一个马尔可夫决策过程（MDP， Markov Decision Process），动作空间包含切换信道、功率控制、改变调制

期刊

干扰规避深度强化学习近端策略优化

D2D通信系统中基于深度强化学习的资源分配算法研究

随着移动设备大规模接入网络,能量消耗急剧增长,追求高能效是无线通信系统发展的趋势。设备直连（Device to Device,D2D）通信能够提高数据传输速率以及频谱利用率,为了应对设备能量有限的情况,引入无线携能技术（Simultaneous Wireless Information and Power Transfer,SWIPT）缓解设备能耗,结合SWIPT的D2D通信可以有效改善系统能效。

学位

设备直连通信无线携能深度强化学习资源分配

基于深度强化学习的三体对抗博弈策略研究

针对三体对抗场景中的攻防博弈问题，提出了基于深度强化学习的智能博弈策略，包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法，提高了算法训练的目的性，同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练，并得到收敛的博弈策略。仿真结果表明，通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为，

期刊

三体对抗深度强化学习智能博弈攻防对抗主动防御零控脱靶量奖励函数塑形

制度结构与行动过程:中国志愿服务组织研究

志愿服务正成为推动中国社会转型、参与社会治理的一股重要力量，其志愿性、公益性和无偿性的特征也使该议题在新时代情境下具有持续的生命力。因此，本文以志愿服务组织为研究对象，梳理传统志愿服务组织研究的脉络和线索，对比“自上而下”与“自下而上”两类志愿服务组织在制度结构下的形成路径、讨论视域及其行动过程中的组织逻辑与动员路径的特点，并讨论其在社会治理中所发挥的作用、功能。在此基础上反思信息时代和风险社会双

期刊

制度结构行动过程自上而下自下而上志愿服务组织

基于深度强化学习的无人机辅助无线传感网络最优传输策略的研究

下一代通信网络的蓬勃发展对于高质量通信服务提出了前所未有的要求。凭借着灵活部署和视距传输等诸多优势,无人机通信有望在未来的无线通信系统中扮演关键角色。总结以往文献,空地一体化网络中的无人机应用研究,可根据无人机在网络中的地位大致分为两种场景:无人机辅助的无线网络通信场景,其中无人机作为部署在空中的基础设施;以及蜂窝网络辅助的无人机通信场景,其中无人机作为获得服务的空中用户。本文考虑将两种主流研究思

学位

无人机数据传输无线传感网络资源分配深度强化学习能量收集调度策略

一种基于深度强化学习的协同通信干扰决策算法

其他学术论文