基于后验经验回放的MADDPG算法

来源 :指挥信息系统与技术 | 被引量 : 0次 | 上传用户:sczr2898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题.多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低.针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果.多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升.
其他文献
浙江省台州市以创新体制机制为动力,坚持先建机制、后建工程,统筹辖区内各县(市、区)开展农业水价综合改革.通过强化顶层设计、示范引领、考核评价、政策解读、制度保障等做法,有效推进全市改革工作,已全面完成改革任务.总结市级农业水价综合改革经验做法及改革成效,为深入推进农业水价综合改革提供借鉴.
首先,通过分析网络信息(网信)世界与物理世界、认知世界的相互关系,重新认识了网信体系理念,聚焦分析了网信体系网络聚能、信息赋能和体系释能的3个重要特点和网信体系内在运行机理;然后,在此基础上,提出了发展网信体系能力平台、网信世界与物理世界及与认知世界连接平面等重点方向,并分析了云计算、数字孪生和人工智能技术在网信体系的关键赋能应用;最后,给出了建立体系思维、重视模型和数据等发展建议,从而赋强赋新军事信息系统及装备.
军事信息基础设施是支撑网络信息体系能力生成的信息底座.着眼于推进军队数字化、网络化、服务化和智能化发展,提出了我军新型军事信息基础设施体系的发展构想,细化设计了其体系架构,论述了其主要作用机理,并对支撑其体系建设的典型关键技术进行了分析,最后阐述了其体系集成和应用问题,以期为新型军事信息基础设施的体系化发展提供参考和借鉴.
网络信息体系建设是我军实现联合作战和全域作战的重要支撑.首先,分析了美军国防信息基础设施体系建设的发展历程和未来发展方向;然后,梳理了体系架构的演进思路,并阐述了数据、云、网络安全、人工智能和通信等关键领域的发展情况;最后,总结了相关方法思路和经验教训并给出了启示,为我军推进网信体系建设提供参考.
随着战争形态的改变,战斗力生成模式也在不断变化.围绕智能化战争形态和作战理念,提出了基于结构力的战斗力生成模式,阐述了结构力概念以及组织结构力、信息结构力2大核心要素的作用机理,构建了基于网络信息体系的结构力生成范式,分析了基于组织中台架构的结构力生成技术,为发展弹性网络信息体系提供结构力生成方法论和理论参考.
作为信息化战争体系的基本形态,网络信息体系成为新时期战斗力生成及战争形态演化的基础,其安全防护是运行保障的关键.从网络攻防角度分析了当前网络信息体系建设面临的安全威胁,探讨了内生式安全防御技术在网络信息体系中的应用设想,并基于网络信息能力验证平台选取融合节点作为防御要地进行拟态化改造和升级.通过试验验证了拟态防御技术在抵御系统软硬件漏洞及后门威胁时的有效性,为内生安全的新一代网络信息体系建设提供参考.
针对传统反航天侦察预报在模式和内容上的不足,基于时间地理学原理提出了星下点时空体的概念.首先,在时空坐标系中用星下点的时空路径表明其随时间的变化,并结合侦察范围对卫星侦察涉及的时空范围进行更细致的描述;然后,将卫星的侦察过程视为时空体的相遇,通过时空棱柱描述星下点时空体的可达范围,并进一步结合概率时间地理学分析了覆盖概率和识别概率;最后,基于星下点时空体提出了反航天侦察时空路径规划的应用构想,可为提升反航天侦察情报的军事效益提供参考.
针对水下无人平台(UUV)的航迹受平台噪声和外界干扰影响大、导航数据可能存在野值等问题,提出了一种基于最优阶数的灰色自适应动态滤波方法.该方法无需UUV系统的先验知识和噪声统计特性,而是根据导航数据建立起基于分数阶算子的灰色模型,计算灰色预测值与下一拍导航样本值的偏差,根据偏差进行自适应数据融合,以实现实时动态滤波.最后,通过仿真验证了该方法的有效性和可行性.
针对复杂运行场景中不易有效划分交通流的问题,提出了基于改进CURE(基于代表对象的聚类)算法的终端区航迹聚类方法.首先,采取等弧长插值重采样方法处理航迹的多维特征;然后,基于航迹多维特征改进相似性计算模型;最后,使用戴维森堡丁指数(DBI)自适应选取CURE算法的最佳聚类数目,并对终端区内航迹进行聚类.某机场终端区703条离场航迹的69763个数据点实例验证表明,该方法可在复杂运行场景中获取精确的交通流分布.
航天侦察资源的快速高效与合理运用,是实现全域作战的前提和关键,同时也是实现战场态势感知的重要条件.首先,分析了传统航天侦察资源运用模式存在的问题,阐述了区块链在航天侦察资源运用中的优势;然后,基于区块链特点构建了一种新的航天资源运用模式,并描述了该模式下的区块链平台及其运行流程;最后,分析了支撑该模式的关键技术.