论文部分内容阅读
多智能体强化学习目前是多智能体系统研究的一个重要热点。在多智能体系统中,环境在多个智能体的联合动作下进行状态的迁移。对于单个智能体来讲,由于其只能确定自身智能体的行为动作,因此产生出另一种形式的非标准马尔可夫环境。机器人足球成为研究多智能体系统的典型问题。机器人足球比赛将过去计算机象棋中的单智能体研究对象发展到分布式多智能体;静态研究环境发展到动态环境;并将非实时知识处理问题发展到实时处理问题,机器人足球是继计算机象棋后出现的发展人工智能的第二个里程碑,它将人工智能技术发展到新的境界。 本文的主要研究内容是多智能体强化学习算法的研究及其在机器人足球平台中的应用,针对多智能体强化学习中存在的难点,本文主要对强化学习的连续空间问题和多智能体学习平衡收敛标准这两个主要问题进行了探讨,并提出了相应的解决方法。同时将所提出的算法用于机器人足球的标准问题-传球问题,通过相应的实验验证了算法的有效性。本文的主要研究内容及创新性成果包括以下几个方面: 1)针对强化学习最典型的函数估计方法-梯度下降法的非收敛性问题,本文探讨了造成此问题的主要原因。对于静态数据的泛化问题,一般采用样本的最小均方误差作为衡量算法性能的标准。当函数估计与强化学习方法结合时,需要提出一种新的衡量标准。根据压缩映射原理,本文提出了基于线性平均的强化学习算法,这种方法的思想是将强化学习的值函数估计函数构造成一个压缩函数,这样,权值的更新过程符合压缩原理,将收敛到局部最优。本文将此算法用于强化学习的标准问题-MountainCar问题,验证了算法的收敛性。并在机器人足球中应用了这种方法,进一步证明了此方法可以用于解决连续状态空间强化学习问题。 2)策略梯度法是另一种解决函数估计不收敛问题的方法,它的主要思想是用一个单独的函数来表示策略,这种方法的难点是策略函数与价值函数参数的更新方法。本文提出的方法是通过构造策略函数与价值函数参数间的某种关系,利用价值函数来控制策略函数沿着策略优化的方向来修正函数值。此算法在MountainCar问题及机器人足球中也得到了验证,证明算法是收敛的并且是有效的。 3)Nash平衡作为随机对策框架下的一种主要的多智能强化学习方法存在两个问题,关于一般和问题的纳什平衡选取问题,及扩展到连续状态空间的可行性问题。本文认为,最佳响应方法更符合多智能体强化学习的理性及收敛性这两个衡量算法的标准,并且容易扩展到连续空间问题。本文将策略梯度法与WoLF-PHC方法结合,提出一种用于连续状态空间的多智能体强化学习算法。它的基本思想是,如果算法的性能得到改进,则减慢学习速度,反之,则加快学习速度。通过算法在机器人足球中这个多智能体问题中的应用,证明了这种多智能体强化学习方法可以提高智能体的学习性能。 4)对于多智能体强化学习算法的研究大部分基于理论探讨,很少应用于实际的多智能体系统中,本文研究了多智能体强化学习方法在机器人足球中的应用。本文研究了机器人足球仿真平台的使用方法,智能体的构造方法及实验的设计,验证方法。通过解决一个标准的强化学习问题,验证了算法的可行性及使用效果。 5)提出了一种机器人足球的硬件平台,此平台基于电磁驱动的原理,实现机器人足球的基本功能,对于进一步验证算法的通用性提供了一个新的平台。