基于深度强化学习的弹道导弹中段突防控制

来源 :指挥信息系统与技术 | 被引量 : 0次 | 上传用户:yizhonglishi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于Markov决策过程的弹道导弹中段突防控制模型,并基于状态-动作对值函数建立了一种完全数据驱动的控制模型。为了加快深度神经网络的收敛速度、增强训练过程中的稳定性,引入了竞争架构和目标网络架构,设计了一种深度神经网络架构竞争双深度Q网络(D3Q)。对传统深度Q网络(DQN)的强化学习算法中的记忆池生成方法进行了改进,提升了训练样本质量。训练及验证结果表明,该方法实现了D3Q网络对弹道导弹中段突防最优控制模型的逼近。
其他文献
【正】2011年4月29日证监许可[2011]639号交银施罗德基金管理有限公司:你公司报送的《关于募集交银施罗德先进制造股票证券投资基金的申请报告》(交施[2010]280号)及相关文件
结合当前莆田市农业机械化发展概况,分析了农机化发展未跟上现代农业发展步伐的主要原因,从加大政府的支农力度、加强与省农机科研单位或大学院校的联系、搞好服务、加强监管,确
【正】2011年8月24日证监许可[2011]1321号安信证券股份有限公司:你公司报送的关于设立安信尊享成长集合资产管理计划的申请及相关文件收悉。根据《证券公司监督管理条例》、
针对实体理解中实体识别问题,传统的实体标签方法致力于在不同实体中找到其独特特征。为了便于理解知识图谱(KG)中每个实体的区分性,提出了一种基于KG的实体标签方法来识别出
一九七八年党的十一届三中全会后,农村实行经济体制改革,极大地调动了农民对农业生产的积极性,允许农民个人拥有生产资料的政策极大地调动了农民投资农业机械的积极性,二十五
随着世界各国对能源需求的不断增长,开发高含硫气田有助于缓解能源紧张的局面,其在整个天然气工业中的地位也将越来越突出。与常规天然气相比,高含硫天然气不仅具有极强的腐
托马斯·哈代是英国维多利亚时期著名的小说家,他因创作了多部卓尔不群的著作而被称为小说界的莎士比亚。哈代一生经历了两个世纪的更替,天生具有敏锐洞察力与时代感知力的他
【正】2011年12月12日证监许可[2011]1967号兴业证券股份有限公司:你公司报送的《关于王剑敏注册为保荐代表人的申请报告》(兴证投[2011]46号)和《关于吴益军注册为保荐代表
介绍了 16例儿童颅内室管膜瘤术后放疗的方法和护理体会 ,在护理中首要注重心理护理 ,放疗中密切观察颅内高压症的表现 ,给予及时的处理 ;其次做好全过程的健康教育及外周静
随着我国经济水平的不断提高,语言类人才出现较多缺口。当下语言类教学工作需要结合当下时代发展潮流,跟随应用型社会发展的脚步,逐渐培养出符合当下发展需求,具有较强实践性