论文部分内容阅读
提出一种多智能体增强式学习方法,每个智能体在学习过程中将其他智能体和环境区分开来,并且通过维持其他智能体的替代传导径迹来预测它们的行为,从而也确定了自身的行为.该算法不需要知道其他智能体的Q函数结构和奖赏函数结构,适用条件宽松.仿真结果证明了所提出学习算法的有效性,而且相对于集中式Q学习效率有很大的提高.