论文部分内容阅读
马氏决策理论是智能体(agent)决策研究中有效的理论。马尔科夫决策过程(MDP)是马氏决策理论中最基础的一种模型,通常用来描述和解决大规模不确定性环境下智能体决策的问题。部分可观马尔科夫决策过程(POMDP)是MDP随着现实问题的扩展,当智能体决策过程中无法获得全局的信息的时候,POMDP就是能够为决策过程提供可靠的模型和求解方法。随着人工智能研究的发展,越来越多的研究者开始考虑将多个智能体作为一个整体,也就是多智能体系统(Multi-agent System, MAS),并开展对多智能体系统决策的研究,而分布式部分可观马尔科夫决策过程(DEC-POMDP)正是为解决MAS决策而提出的新模型。本文首先介绍马氏决策理论中重要的三个模型MDP、POMDP和DEC-POMDP以及相应的求解算法,然后结合机器人足球2D仿真比赛中球员决策的问题,通过分析利用相关的模型和算法来提高球员决策的性能。本文主要工作可以分为以下三个方面:首先,通过分析机器人足球2D仿真比赛中球员进攻决策存在的问题,发现球员在持球状态下决策的不足,然后利用MDP为球员持球状态下的进攻决策进行建模,同时提出值函数分解迭代的方法求解最佳进攻策略,通过实验数据证明利用本模型和相关求解算法能够让球队的进攻性能得到有效的提高。其次,为提高球队守门员的表现,本文分析了守门员决策必须考虑决策实时性和信息不完整性,提出用POMDP为守门员决策进行建模,以提高守门员在紧急情况下及时有效防止对方进攻的表现。在求解过程中,为保证算法的实时性,文中提出基于了临界状态的求解方法,并将此方法应用到基于POMDP模型的守门员决策中。一系列检测守门员效果的实验数据表明,通过POMDP模型建模并求解后的守门员决策性能得到了较好的提升。最后,我们展开了多智能体决策的研究。马氏决策过程中为解决多智能体系统决策,提出了DEC-POMDP模型,但是其相应的求解算法仍存在不足,尤其是目前大部分算法只能解决部分小规模问题,无法顺利地应用于机器人足球2D仿真比赛这种大规模多智能体系统的决策中。文中首先对多智能体系统决策的DEC-POMDP及相关算法进行分析,然后利用MADP工具箱对DEC-POMDP模型的一系列标准测试问题进行测试和分析,阐述了DEC-POMDP离线规划求解过程中算法的重要性,然后提出分组有限空间的离线规划方法,并在MADP工具箱里几个有关DEC-POMDP标准测试问题中验证文中提出方法的有效性,通过几组实验对照发现分组有限空间的离线规划方法能够在一定程度降低标准测试问题的求解时间。本文的工作是以机器人足球2D仿真比赛作为研究平台,利用马氏决策理论为球员(即智能体)决策进行建模和求解,通过设置的一系列实验数据统计,体现了本文工作的意义。基于文中的研究成果,GDUT_TiJi队在2011年RoboCup中国公开赛获得全国一等奖,并顺利地首次通过机器人足球世界杯预选赛,将于2012年6月前往墨西哥参加2012年RoboCup机器人足球世界杯决赛。