基于深度强化学习的兵棋推演决策方法框架

来源 :国防科技 | 被引量 : 0次 | 上传用户:q3821713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。
其他文献
将GN与T分别以N/T47/53、GN/T47/53、GN/T57/43、GN/T85/15比例混合纺14.8tex,捻系数358的紧密赛络纱,并织成橫密145/5cm、平方米质量155g/m^2相同规格纬平针针织物(其中N为
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
会议
苍耳了系菊植物苍耳Xanthium sibiricum Part. 的带总苞的成熟果实,为中医临床较常用中药.
本文介绍了防地雷反伏击车的设计要点。这种防地雷反伏击车是一种能够为士兵提供抵御地雷、简易爆炸装置和其他枪弹威胁的改进防护的战斗用车。涉及防地雷装甲车辆的总体设计
用光子相关法、原子力显微镜和扫描电镜三种测试方法测定了同一标准样品的粒径,比较了三种测试方法在纳米粒径检测方面的特点.光子相关法给出纳米微粒的平均粒径和多分散系数
随着互联网技术的飞速发展,信息传播对国家政治、经济、外交和国防带来巨大冲击和影响。美军意识到传播叙事是政府和军队塑造形象、谋划战略、输出文化价值观的重要手段。美
迅速发展的智能化技术彻底打破传统国际战略对抗模式,不断扩大国际行为主体的能力代差使得资本与技术获得“超级权力”,给社会安全带来一系列新的挑战,进一步加剧人们的“技