论文部分内容阅读
为了在multi-agent系统中实现agent之间的竞争与协作,该文提出了一种新的在线学习方法,即:改进的模糊Q学习方法,在这种方法中,agent通过增强学习方法来调节模糊推理系统,进而获得最优的模糊规则。为了改善学习的时间,Q学习方法中的奖励值并不是固定的,而是根据状态而变化。将改进的模糊Q学习方法应用到RoboCup仿真环境中,使智能体通过在线学习获得跑位技巧。并通过实验证明了该方法的有效性。