论文部分内容阅读
强化学习允许通过奖励和惩罚完成agents编程,而不用指定如何实现这个目标。Multi-agent强化学习是multi-agent环境中强化学习概念的一个延伸。从一个单独的agent的观点,multi-agent系统不同于single-agent系统最重要的因素在于环境的变化可以被其他agents决定。
当每个agent学习,加强,并行的改变其行为,每个独立的agent面临着在一个动态的环境中学习的困难。加之该领域内在不确定因素和其他agent有意的采用不确定的方式影响该环境。因此所有multi-agent系统可以视为具有动态的环境,收敛保障,例如Bellman-style single-agent的收敛技术已经不再适用。
在multi-agent系统领域的研究专注于有效的协调各个自治的agent来完成任务同时也达到较高的系统性能。Multi-agent协调的挑战包括单个目的控制,各个提供不完整信息的agent的局部观点,各agent私有的目的和解决程序,异步通讯,动态环境和不确定性。协商机制包括两种:第一种,团队合作机制,这种机制中各agent协调合作完成一个整体目标;第二种每个agent自私的试图完成各自的目的机制,一个极端的情况是每个agent都是对手,都试图完成各自的目标甚至影响损害其他agent。
本文提出了一个新的基于加权经验共享的multi-agent强化学习观念。在这个新的观念中,每个agent都从其他agent的经验中获得好处然后添加到自己以知识为基础的经验中。
通过这样的方式,我们的方法保证实现了在动态multi-agent环境中意图收敛的目的。我们同样也在尝试证明使用multi-agents允许学习进度急速收敛。因此更多的agent,更快的意图收敛。从single-agent系统到multi-agent系统的拓展已经通过Q-learning算法完成,它是由两个方法组成:独立学习和协作学习。