论文部分内容阅读
在作战仿真系统中,如果缺乏对人的行为的有效建模,将直接影响目标系统的有效性和仿真结果的可信性。因此,构建计算机生成兵力(Computer Generated Forces,CGF),通过对人类战争行为的模拟来构建行为可信的虚拟对手、友军、以及平民等智能模型,是仿真系统建设的一个重要工作。在CGF建模中,最为核心的问题,是如何提升CGF的行为拟合度,以准确反映模拟对象行为的客观规律,也就是CGF的行为建模问题。在传统CGF建模中,对行为执行逻辑的描述和控制主要使用有限状态机(Finite State Machine,FSM)技术。FSM在以ModSAF为代表的各类仿真平台中得到广泛应用和发展,然而随着建模复杂度的增加,其模块化程度低、“一步控制”、难以集成开发等缺点也逐步显露。行为树(Behavior Tree,BT)是游戏人工智能(Game AI)领域近几年发展起来的行为描述技术,较之于FSM,BT凭借其模块化程度高、“两步控制”、分层描述结构等优点在商业游戏市场上占据越来越高的份额。本文尝试将行为树引入作战仿真系统,谋求实现对CGF行为进行更有效的描述。与FSM相似,基本行为树本质上也是一种静态的行为组织架构,直接使用行为树构建CGF模型并不能实现该架构的动态调整,因此难以模拟人类通过经验累积和学习来改变自身行为模式的过程。为了解决这一缺陷,本文在对基本行为树的结构表示和控制原理进行深入分析的基础之上,对CGF行为建模框架、行为树的动态组合以及结构优化三个问题开展了研究。首先,针对第一个问题,本文构建了CGF行为建模框架,作为CGF行为组织的基础结构,该框架通过设计合理的功能模块使CGF具备感知环境、理解态势、决策意图、规划行动、学习反馈的功能,采用行为树技术管理战术策略,并对CGF行为控制技术进行了论述。针对第二个问题,本文提出了基于规则推理动态构建行为树战术策略的方法,该方法通过设计合理的知识体系结构来实现基于产生式规则的行为树动态组合。本文对基于产生式规则的知识表示方法、基于规则的战术行为规划机制、和基于规划结果的行为树动态构建方法进行了详细阐述。针对第三个问题,本文采用强化学习方法对基于行为树的战术策略进行在线学习和动态优化。文章利用行为树与分层强化学习的一致性,将战术策略进行分层优化并逐步收敛,使CGF可以在战术策略层面可以进行学习优化而不仅仅是在反应式行动层面。本文通过引入Q-Learning选择节点替换原选择节点在行为树中引入强化学习功能实现CGF在线学习,根据学习后得到的稳定Q值信息选择战术策略。本文以ORTS游戏平台为背景设计并实现了仿真实验,采用Soar推理引擎构建了论文所提出的规划框架,通过与平台提供的脚本AI进行对抗,初步验证了学习算法对行为树的在线优化能力。