论文部分内容阅读
随着军事科技的发展进步,先进武器装备的论证和定型面临更多的备选技术方案。准确评估不同技术方案下装备的作战效能可有效地降低军事投资的风险。基于建模与仿真技术的计算机模拟实验已成为装备作战效能评估的重要手段。论证阶段装备技术组合方式以及参数取值范围直接导致技术方案组合爆炸,“技术决定战术”则间接导致了战术方案空间爆炸,传统的战术建模方法在效率上难以支持大规模仿真论证实验。本文研究面向效能仿真的战术探索方法,解决战术自动生成、优化和运用等问题,论文主要工作如下:(1)面向效能仿真的战术探索框架。论文分析了现有战术建模方法在大规模战术探索方面存在的不足,提出新的战术探索框架,从战术建模语言、战术探索算法以及不确定环境下战术运用方法三个层次提高战术建模效率。首先在仿真基础设施方面,设计了基于行为树的领域特定战术建模语言,提升战术表示的抽象层次,实现战术脚本的自动生成,提高建模效率支持战术自动探索。然后提出了基于文法演化算法的战术探索方法,利用模块化的行为树结构和演化算子生成战术样本进行仿真测试,根据反馈结果自动迭代探索战术。在此基础上,扩展战术模型在不确定环境下的应变能力,提出了基于随机行为树的战术决策模型,采用强化学习算法训练决策模型。(2)面向装备效能仿真的战术建模语言。针对仿真系统战术建模抽象层次低、模型校验和重用困难等问题,基于软件工程的领域特定建模(Domain-specific modeling,DSM)方法设计了战术建模语言。首先分析了行为树作为战术表示方法的优势,提出事件驱动的行为树语义优化模型的执行效率。然后基于行为树形式体系,定义了战术建模语言的元模型、语法和语义。战术建模语言采用对象约束语言(Object Constraint Language,OCL)表示模型的约束实现模型的自动校验。进一步设计了面向用户的战术图形化建模编辑工具,支持战术模型到脚本代码的自动转换。在仿真基础设施层面,战术建模语言提供高抽象层次的战术表示方法,屏蔽底层代码编程工作,提高建模工作的自动化程度,支持下一步应用算法探索战术。(3)自适应的文法演化算法应用于战术探索。论文提出了基于文法演化的战术探索框架,首先定义战术行为树与演化算法中二进制个体之间的映射关系,给出战术演化探索的流程。然后为提高演化算子生成战术的合格率,设计了多形态演化算子,包括:基因型对齐交叉算子、基于树的交叉和变异算子以及支持优势结构的组合算子。针对多个超参数非显式地控制算法性能,提出自适应的参数协同优化机制,根据演化效果动态设置参数的取值。同时提出了基于多臂老虎机(Multi-Armed Bandit,MAB)模型的算子选择算法,在演化过程中均衡不同算子的使用率,提高演化算法探索效率。(4)不确定环境下战术决策模型及学习算法。针对战术模型在不确定环境下无法应对未明确态势的不足,提出了战术决策模型及其学习算法。首先提出了随机行为树模型,在保留战术结构的基础上扩展随机控制节点,基于马尔科夫决策过程构建随机控制节点的决策模型,将面向规划的行为树扩展为兼具规划和即时反应的战术决策模型。在此基础上,利用递归神经网络处理不可完全观测的态势数据,构建战术决策模型深度强化学习的网络架构。最后基于强化学习算法训练神经网络模型,提高战术决策模型的作战能力。