论文部分内容阅读
最近几十年,随着计算机技术的迅猛发展,对于分布式多智能体系统(MAS: Multi-agent System)的研究和应用已经成为以人工智能为主的众多相关学科的研究重点。RoboCup即机器人足球世界杯,通常被认为是研究多智能体系统的一项非常有影响力的人工智能方面的重大赛事。RoboCup分为两个大类的项目,分别是仿真和实体机器人。本论文主要是基于仿真项目的比赛赛事,对RoboCup仿真2D比赛当中单个智能体在场上的对于种种因素的各种决策以及多个智能体在对抗的实时环境之中的团队配合决策做了一个重点的研究。在RoboCup仿真比赛之中,智能体的决策大致可以分为高层决策和低层决策。高层决策主要是为了多智能体之间的团队配合服务的,分为战略层决策和战术层决策。高层决策是面向多智能体系统的,具体到单个智能体之上就表现为它的行为决策,在RoboCup之中也叫动作决策。智能体的动作决策就是指智能体(Agent)根据当前场上各种环境状态(包括实际感知和预测),以及赛前己方球队已经制定的合作协议,来决定当前环境下应该发送给服务器的动作指令,同时更新自身的状态。低层决策一般是指智能体高级动作的行为分析之中对于某些因素的决策,例如传球动作当中的对于接球队员的选择决策,射门动作当中的对于射门点选择的决策等。对于RoboCup之中Agent的决策系统,可以将机器学习的方法引入这个优秀的实验平台,帮助Agent在实时比赛的时候无论对于防守还是进攻都能做出更加合理有效的决策。在实际的RoboCup仿真2D球队的开发当中,各支球队的设计和开发人员对于机器学习的引进都不尽相同,但是大部分是以决策树学习,人工神经网络学习和强化学习为主。本论文将机器学习引入到智能体高级动作的学习之中,使智能体高级动作的执行效果进一步优化,成功率进一步提高,从而能够很好的服务于智能体的高层决策。通过将决策树学习算法应用到智能体的传球训练之中,使得智能体的传球更加精准;以及将人工神经网络应用到智能体的射门动作训练中,使得智能体射门的成功率大大提高。最后本论文还将Q学习应用到RoboCup仿真2D比赛的智能体前场进攻动作决策之中,通过引入区域划分,基于区域划分的奖惩函数和对现实生活中真人足球赛中动作决策的模拟,在经过大量周期的学习训练后,使智能体能够进行自主动作决策,从而加强多智能体的前场进攻实力,进而提高整个球队的进攻能力。