论文部分内容阅读
计算机生成兵力(Computer Generated Force,CGF)是作战仿真领域的关键前沿技术之一。为解决现有仿真系统中CGF智能性与拟人性不足的问题,本文从CGF行为模型中的推理判断环节出发,针对意图识别方面展开研究以解决CGF行为模型的问题。而在战场强对抗环境中,识别双方都将自觉地对另一方的行动做出相应反制。特别的,在意图识别领域,则对应到被识别方的意图隐藏、欺骗行为,以及识别方的识别增强行为等。本文借助非合作博弈理论在表达多智能体理性且智能交互行为方面具备的天然优势,同时结合学习理论弥补识别方在对手行为建模方面存在的不足,提出了基于非合作博弈与学习理论的CGF对抗意图识别建模方法与应用研究。本文首先介绍了基于非合作博弈与学习理论的CGF对抗意图识别研究背景、研究意义以及理论研究与应用现状,同时对通用意图识别的一般性研究框架、对抗意图识别行为建模中常见的非合作博弈、意图识别设计等理论方法进行了简要介绍。在此基础上,本文着重对路径规划与识别任务中,识别双方采取诸如意图模糊与欺骗、意图识别增强等技术手段,进行非合作行为冲突的问题进行了理论与应用研究。文章探讨了对抗环境中被识别方遂行意图欺骗的可能性,及该可能性为其带来的巨大效益,并对欺骗行为的显式建模表达与计算求解进行了相关研究。针对被识别方的欺骗行为,文章进而探索了识别方采取学习行为建模和非合作博弈等方法对意图欺骗进行有效规避,从而增强识别效果的相关理论与方法研究。文章分别提出了对应的解决方法:(1)基于欺骗的路径规划方法以对抗环境中被识别一方的欺骗行为为背景,分析基于欺骗的路径规划形式化表示,从基于模型的意图识别得到的各个位置节点下不同目标概率分布出发,分别量化分析各步骤“示伪”与“藏真”欺骗策略的效果,最后提出基于显式建模和数据驱动的两种欺骗路径规划方法。最后设计实验,通过与无欺骗路径做对照,展示了不同欺骗策略以及不同欺骗路径规划得到路径的欺骗效果。(2)基于逆强化学习的欺骗行为建模方法在对抗环境中,被识别方采用欺骗行为隐藏真实目标背景下,识别方为了提升识别效果,使用逆强化学习建立被识别方欺骗行为模型。然后从被识别方任务出发提出相关候选特征值,使用统计学方法对特征值筛选和组合精简特征值,以此减小计算量提升逆强化学习效果。实验表明使用逆强化学习学习模型作为意图识别中被识别方策略估计,可以大幅度提升被识别方真实意图识别概率。(3)基于非合作博弈的对抗意图识别建模方法本文使用非合作博弈理论,将识别双方的对抗行为建模与表示整合在统一框架内。其中,识别方(亦防御方)通过改变路网环境,迫使被识别方(攻击方)提早暴露真实意图;被识别方进行欺骗路径规划,迟缓识别方在判断真实意图后的一切防御行动,消耗浪费其防御资源部署。针对被识别方的欺骗行为,本文使用IRL方法从被识别方历史行为数据中学习描述符合被识别方行动策略的效用函数,在此效用函数的基础上使用线性规划方法求博弈的纳什均衡解。然后在离线静态场景中使用贪心算法求解此博弈场景下的最优路径阻断方法,并讨论扩展到在线动态场景路径阻断的方法。实验表明了基于非合作博弈的对抗意图识别建模方法可进一步提升识别真实目标概率。最后,我们总结论文的研究工作,并给出未来计划研究的问题。