论文部分内容阅读
强化学习是人工智能领域中解决学习控制的一种重要方法。在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决具有循环特性或不具终结状态的问题,其存在参数和环境的敏感及收敛速度慢等问题,并且强调的是单个智能体的独立学习。针对上述问题,考虑单个智能体与其它智能体的关系及影响,将一种改进的基于性能势强化学习算法——Glearning引入到多智能体系统中,设计出一种新的强化学习算法,将新设计的强化学习算法应用在RoboCup的Keepaway平台上。仿真结果表明了在选择较好参考状态的条件下有效提高