论文部分内容阅读
当前,随着计算机网络技术的迅速发展,计算机快速转向开放的、网络平台的、协同工作方式。基于Agent理论和技术尤其是MAS(Multi-Agent Systems)的理论和技术给我们带来了设计和实现分布与开放环境中运行的软件系统一个全新模式。 机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS,是MAS标准问题,可以用来评价各种不同MAS问题求解的理论、算法和体系结构。 RoboCup仿真球队分为2D和3D。2D仿真的环境是二维的,且其物理模型不是真实的,在仿真中容易预测,另外,其仿真不容易扩充,但3D仿真采用三维环境和真实的物理模型,使其运动难以预测,并且容易配置来进行其它仿真,使其研究成果更容易转化到实际应用中,所以,3D的研究成为MAS的研究热点。要建立一支RoboCup 3D的仿真球队,主要有两方面的工作:确定良好的程序框架及针对所要解决的问题选择合适的学习算法。本文的主要工作: (1)提出分层学习的框架。将系统分为三层:交流层、技术层和控制层。下层为上层提供服务,且对上层透明,因而易于扩展,降低了在连续状态和动作空间下学习的难度。交流层提供与服务器的信息交流,包括球员从服务器端接收信息和球员向服务器发送动作指令;技术层提供球员的个人技能和球队的合作技能。首先在原始的状态空间学习球员的基本个人技术,然后在已有的个人技术上学习高级的个人技能,如带球,在已有的个人技术基础上再学习团队的合作技术,如传球;控制层提供球员的推理功能,球员先根据当前的策略状态从队行为集中选择一些队行为,然后将这些队行为仿真推进几步,将仿真结果进行评估,然后根据评估结果再选择一个队行为,球员根据队行为选择自己的动作,然后将此动作送服务器执行。 (2)HEDGER能在RoboCup 3D仿真所提供的连续的状态和动作空间进行学习,但是在3D仿真如此大的状态和动作空间下进行学习,其计算量太大,难以在线实时学习。因此,我们对HEDGER学习算法进行了改进,引入脊回归技术,通过调整脊参数的大小,增强了LWR在预测时的容错性,同时,引入了kd-tree算法,减小了算法在查找时的计算量。改进的HEDGER算法提高了其在3D仿