论文部分内容阅读
本文以足球仿真机器人系统为研究平台,研究多智能体对抗系统的高层策略学习问题。通过对足球机器人系统的分析和研究,使用模糊手段描述了复杂的足球机器人状态空间;提出将MAXQ多智体分层增强式学习方法应用于足球机器人进攻策略的学习;并进一步提出通过融入一种在对抗系统中具有良好特性的变学习率学习法则而得到一种适合于多智能体对抗系统的策略学习方法。 多智能体系统是近年来人工智能领域的研究热点。它所体现出的群体智能、社会特性比起单智能体系统,更加符合许多应用领域的特点。足球机器人系统由于其可实现性,对抗性,系统模型的信息不完备性迅速成为这一研究领域的标准问题之一。多智能体系统的所有热点问题,如主体的研究、群体协作、智能体间通信等都体现在足球机器人仿真平台上。本文集中研究足球机器人高层策略的分层学习。通过对足球机器人仿真系统特点的研究,从中提炼出进攻策略学习问题作为本文的研究问题。 环境的描述是智能体学习的先决条件。多智能体系统的智能体大都处在复杂、时变、信息动态不完备的环境中。其环境描述需要根据具体问题来进行。本文分析了足球机器人系统的结构和参数特点,将模糊方法应用于描述其智能体(即单个球员)的状态空间,使用一个合理的状态数目有效描述了智能体所处的状态。 MAXQ分层多智能体学习方法是近年来被提出的一种新方法。它改进了传统的单智能体增强式学习方法,以适应多智能体环境的智能学习。本文将其应用于足球机器人系统的进攻策略学匀。实验证明该方法产生的策略能够实现进攻目的,适用于本文提出的足球机器人进攻策略学习。 足球机器人同时又是一个典型的对抗型系统。WOLF(Win or Learn Fast)变学习率学习法则是近年来提出并被验证的适用于对抗系统的学习法则。本文将其应用于MAXQ学习算法,得到一种适用于多智能体对抗系统的新方法。实验验证了该方法具有对抗系统的一些良好特性。