论文部分内容阅读
计算机生成兵力(Computer Generated Forces,CGF)的行为建模一直是作战仿真技术中的重点和难点。在一些典型的CGF系统开发实践中,行为模型需要大量地依赖领域相关人员参与构建,以形成足够的领域知识驱动复杂行为。但是这些模型主要产生反应式行为,除了构建过程繁琐之外,也无法对人的高级认知活动(如态势感知、任务规划和推理决策等)进行有效表示。论文主要探索了将蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)应用于CGF战术决策的问题,意在实现能够使CGF在虚拟战场中表现出更具智能性的行为模型。MCTS本身是结合随机采样的最佳优先搜索,能够求解状态空间较大的问题。同时,其在推理过程中考虑了敌我双方的可能行动,在此基础上形成对不同方案的评估,这种方式非常适合分析类似作战这种存在动态对抗的环境。论文针对战场环境的特点,设计了基于Agent的CGF决策行为建模框架,在这个框架下,阐述了以MCTS为主要技术的推理决策构建过程。而本文工作在这个基本设定上进行,面向MCTS应用于CGF战术决策的具体问题,针对几项关键技术展开研究,形成本文的主要贡献和创新点,这里可以概括为四个方面:(1)提出一种分层任务网络规划(Hierarchical Task Network,HTN)引导的树搜索算法,通过HTN规划的结果限制MCTS的搜索空间、引导搜索过程,同时也利用MCTS的前向推理能力,对HTN中蕴含的领域知识进行探索,以此实现高质量的CGF实时决策。(2)提出一种基于信念的MCTS算法,以实现MCTS在信息不完备环境中的应用。相对基本的MCTS,主要对树模型结构进行了扩展,加入了历史观测值序列的元素,并且应用粒子滤波方法构建信念状态及其更新过程;最后在决策应用上,是通过对信念随机采样的确定化搜索,实现对不确定信息的推理。(3)提出一种基于Chebyshev度量的多目标MCTS算法,以实现MCTS在多目标环境设置下的应用。所提方法使用Chebyshev度量构建关于多优化目标的非线性标量和,以此影响MCTS的搜索过程以及最佳策略选定,可以针对复杂问题有效寻找最符合目标偏好设定的Pareto最优解,而无论问题的Pareto前端是否具有非凸区域。(4)提出一种基于Option框架的问题自动抽象方法,实现规划应用中的知识自动构建,可以使规划基于Option进行,从而提高效率。本文主要通过社团发现算法实现Option自动构建,并提出Option在应用场景中基于社团动态修正的在线优化方法。这些方法均通过基准对比试验证明了有效性,为在规模巨大问题中的应用奠定了一定的基础。论文最后总结了全文研究工作,并提出需要进一步完善的问题,展望了未来的研究方向。