基于深度强化学习的三体对抗博弈策略研究

来源 :战术导弹技术 | 被引量 : 0次 | 上传用户:try111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对三体对抗场景中的攻防博弈问题,提出了基于深度强化学习的智能博弈策略,包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法,提高了算法训练的目的性,同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练,并得到收敛的博弈策略。仿真结果表明,通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为,在避开防御弹攻击后仍能在短时间内成功命中目标;目标/防御弹的主动防御策略中的目标扮演诱饵角色,防御弹将进攻弹迅速锁定在拦截三角形上,从而使目标在战场上面临机动能力较强的进攻弹时,能够免于攻击。
其他文献
针对基于最长队列优先配时算法的大规模交通信号灯协同控制模式存在的诸多不足,提出了一种基于多智能体深度强化学习的大规模交通信号灯控制模型。首先形成融合经验学习集和实践应用集的高度动态复杂路段交通运行态势经验池;然后利用深度长短期神经网络建立时间正序下的大规模交通信号灯与多智能体之间的物理映射关系;最后利用深度确定性策略梯度算法实现复杂路段大规模交通信号灯最优协同控制。对模型开展了典型需求场景下的仿真
志愿服务信息管理系统是为志愿者服务队编写的一套信息管理系统,便于对志愿者的信息和服务队日常事务进行统一管理。当前志愿服务信息管理系统存在诸多问题,影响其管理效率和规范化。区块链技术具有去中心化、全网分布式处理、共识机制、集体维护、时间戳等技术特征,将区块链技术引入志愿服务信息管理系统有助于解决其信息记录混乱繁杂、信息处理信度低、信息真实性难以保证和透明度低等问题,具有必要性和可行性。应在志愿服务信
未来天基信息网络(spaceinformationnetwork,SIN)领域将面临结构复杂、环境动态、业务多样等发展趋势带来的挑战。数据驱动的深度强化学习(deep reinforcement learning,DRL)作为一种应对上述挑战的可行思路被引入SIN领域。本文首先简要介绍了DRL的基本方法,并全面回顾了其在SIN领域的研究进展。随后以星地网络场景的中继选择为例,针对大规模节点问题提出
<正>熊科动物是当今陆地上体形最大的食肉动物,它们常给人一种笨重、缓慢的印象,与大型猫科动物比起来,少了一份威武与霸气。不过,在距今1万年前的北美洲,曾经生存着一种巨熊,其外形与今天的熊科动物有很大差别,令人印象深刻。在距今3万年前的更新世末期,地球正处于第四纪冰川期,美国加利福尼亚州的气候要比今天湿润。在一座山谷中,不断传来嚎叫声,原来是一群恐狼正在围攻一头年老的长角野牛。长角野牛此时已经筋疲力
期刊
<正>股份公司第二炼钢厂机修车间根据工种多、日常检修项目多、检修环境复杂、安全管理难度大等特点,以现场为重点,不断强化职工安全意识、提高职工安全防护技能,确保检修过程中的安全作业,努力做到从人、机、环"三个"方面入手,抓好检修前、中、后"三个"环节,树立"三种"观念;确保检修安全,实现了检修零伤害的安全管理目标。一、从人、机、环三方面入手,做好安全本质化建设人员的本质化安全包括人员的安全生理、安全
会议
欧洲志愿服务与福利国家演变历程紧密相连,贯穿其萌芽及发展各阶段。当福利国家陷入困境后,福利多元主义思潮兴起,志愿服务理论也掀起了新高潮。欧洲志愿服务在实践中弥补了福利国家部分功能,并逐渐拥有稳健的运行及支持体系。本文旨在考察福利国家及欧洲志愿服务发展的历史进程,梳理两者之间的理论联系,阐述当今欧洲志愿服务组织运行及支持体系,进而剖析其发展趋势,以期对我国志愿服务发展提供借鉴。
近年来,我国老龄化愈发严重且下肢失能患者人数逐年增多,人工护理已经无法满足需求,使用辅助机器人完成老年人及失能患者的日常生活辅助是当下研究的一个热点。当使用环境中同时存在多台辅助机器人时,多台辅助机器人的路径规划与避障是一个首要解决的问题。多机器人系统具有较高的动态性,因此传统的路径规划方法不在适用于多机器人系统中,如何让多机器人系统中的路径规划变得更智能是当今研究的重点。近年来机器学习的热度越来
天地一体化网络是近年来新兴的以天基网络为主体,地面网络为基础,结合空中网络的一体化信息网络,其可为陆、海、空、天各类用户提供随遇接入、全球覆盖、按需服务、安全可靠的信息服务。大力发展天地一体化网络信息服务能力以适应各种场景下的业务需求对于信息时代掌握全球空间资源具有战略性的经济、社会和军事意义,也是谋求新技术、新产业领先优势,实现全球化信息服务的必然选择。随着卫星通信技术及移动通信技术的快速发展,
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制
随着移动设备大规模接入网络,能量消耗急剧增长,追求高能效是无线通信系统发展的趋势。设备直连(Device to Device,D2D)通信能够提高数据传输速率以及频谱利用率,为了应对设备能量有限的情况,引入无线携能技术(Simultaneous Wireless Information and Power Transfer,SWIPT)缓解设备能耗,结合SWIPT的D2D通信可以有效改善系统能效。