论文部分内容阅读
由于多机器人系统具有更广泛的任务领域、更高的效率、容错性、鲁棒性、更低的经济成本等诸多显著特性,近年来逐渐成为机器人领域的研究热点。其中,协调协作的实现是多机器人系统研究的核心问题。人工智能领域的智能体和多智能体理论(Multiple Agent System,MAS)对多机器人学的研究产生了深刻影响,利用智能体和MASN论研究多机器人系统的相关问题已日益成为趋势。多智能体协作是指多个智能体通过协调各自行为,合作完成共同目标。目前实现多智能体协作比较先进的方法是神经网络、强化学习、遗传算法等几种机器学习算法相结合,使机器人智能体产生能适应环境并完成目标任务的动作行为。
机器人足球Robocup是一个典型的多智能体系统问题,是近此年来多机器人系统研究最吸引人的测试平台。由于机器人足球提供了比其它平台复杂得多的环境,因此,一般认为能够在机器人足球环境中运用的结构和算法,在大部分情况下足以完成其它平台提出的任务。
本文主要研究在机器人足球仿真平台Robocup仿真组上综合利用几种机器学习算法获取多智能体系统高层协作策略问题。主要研究工作包括:
(1)将结合CMAC神经网络泛化的Sarsa(λ)强化学习算法应用到Robocuo的子任务Keepaway平台,得到了较其他非学习方法更好的效果;
(2)Keepaway平台是标准的机器学习算法比较平台。在标准平台上比较了Sarsa(λ)和Q(λ)算法,实验结果表明Sarsa学习比Q学习更适合大规模连续空间的任务;
(3)为了提升强化学习算法在多智能体系统中的最终学习效果,根据Keepaway平台总是以失败告终的特点,受与之有相同特点的的杆平衡系统所采用强化函数的启发,重新设计了一种新的惩罚式的强化函数。仿真结果表明,新设计的强化函数有效提高了强化学习算法在Keepaway平台的性能表现;
(4)强化学习应用于多智能体系统有收敛速度很慢的缺点。通过调整同时学习的智能体个数分别进行仿真实验,确定了同时学习的智能体数量相对于任务的复杂度才是影响多智能体系统收敛速度的关键因素;
(5)提出一种自适应强化学习算法。将可靠度概念引入强化学习算法,提出一种基于可靠度指数的动作选择策略,算法中的动作选择策略参数依据对值函数估计的可靠度动态改变以适应学习的发展进程,从而使算法可以适时收敛。