论文部分内容阅读
研究多agent环境下的学习行为对于系统的适应性是至关重要的。强化学习技术通过将学习过程建模成马氏决策过程,已经解决了单个agent在静态环境下的最优行为策略求解问题。但是多agent环境与生俱米就是非静态的,每个agent的学习行为会由于其他agent同样存在学习行为而受到影响。本文针对一类追求系统得益最火化的协作团队的学习过程,提出了一种多agent协作的强化学习方法。团队中的每个agent通过观察协作相识者的历史行为,预测其行为策略,进而得出最优的联合行为策略。