基于深度强化学习的巡飞弹突防控制决策

来源 :兵工学报 | 被引量 : 0次 | 上传用户:yp445163091
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
巡飞弹突防控制决策(LMPCD)问题是“多域战”作战概念背景下的重要研究方向。针对该问题,建立基于马尔可夫决策过程的LMPCD模型。拟合LMPCD函数与飞行状态-动作值函数,构建基于演员-评论家方法的LMPCD框架,给出基于深度确定性策略梯度算法的深度强化学习模型求解方法,生成巡飞弹突防控制最优决策网络。通过1000次巡飞弹突防仿真测试,结果表明,巡飞弹执行任务成功率为82.1%,平均决策时间为1.48 ms,验证了LMPCD模型及其求解过程的有效性。
其他文献
The power conversion efficiency(PCE)for perovskite solar cells(PSCs)now reaches 25.2%[1].However,the perovskite materials have complex compositions and variable phases,calling for suitable characterization techniques to investigate the underlying operatio
为促进武器装备智能化发展,对武器智能化现状进行分析,对其发展方向进行展望。分别从武器装备智能化无人控制、自主决策、效能发挥的特征进行阐述,基于无损性、实用性、同一性、伦理性等关键指标,给出武器智能化特征和发展的关键要素,提出武器装备智能化发展中应突出把握人装结合关系、演进发展融合点、整体与局部关系等具体思考。该研究具有一定的实用价值。