论文部分内容阅读
在人工智能和多智能体系统研究领域,多智能体强化学习是一种重要的学习技术。它作为强化学习、多智能体系统、博弈论等技术的综合,已经被成功地应用于机器人足球、宽带网络、QoS路由等领域。尽管多智能体强化学习已经发展了数十年的时间,在理论和算法方面也取得了丰硕的成果,但现有的大多数多智能体强化学习算法都不具备较好的可扩展性,在状态空间较大和智能体数量较多的学习任务中一直难以取得较好的效果。其原因主要包括:均衡计算的巨大代价、多智能体强化学习模型的复杂性、对已有知识的利用不足、状态空间的维度灾难以及多智能体系统的维度灾难。针对现有多智能体强化学习方法的可扩展性较差这一问题,本文结合博弈论、函数估计、迁移学习等技术来展开相应的研究工作,其主要贡献可以归纳如下: 1.针对基于均衡的多智能体强化学习方法中共享值函数这一不现实的假设,提出了一种不共享值函数的多智能体强化学习算法NegoQ。其主要创新点在于:(1) NegoQ算法采用三种纯策略均衡来作为信息分布条件下的博弈最优解,它们分别是纯策略纳什均衡(Pure Strategy Nash Equilibrium,PNE)、均衡优超策略组(Equilibrium-Dominating Strategy Profile,EDSP)和弱均衡优超策略组(Non-Strict EDSP)。其中,均衡优超策略组和弱均衡优超策略组是效用值比一个或多个纯策略纳什均衡高的策略组,它们鼓励智能体之间的合作。基于元博弈理论,本文证明了这三种纯策略都是对称元均衡,从理论上提供了它们的可解释性。(2) NegoQ算法采用一种多步协商的方式来对三种纯策略均衡进行分布式地求解,避免了对值函数的共享。在网格世界中的实验结果表明,NegoQ算法不仅具有良好的收敛性,并且其学习速度远远高于NashQ、CEQ等现有算法。在追击游戏中的实验结果表明,NegoQ算法虽然并不是针对合作型学习任务而设计,但却拥有与面向合作的多智能体强化学习算法一样甚至更出色的性能。 2.针对基于均衡的多智能体强化学习方法具有较高计算复杂度这一问题,提出采用均衡迁移(Equilibrium Transfer)的方式来避免在学习过程中进行大量的均衡计算,从而达到对学习算法加速的目的。其主要思想是在当前博弈中复用之前的相似博弈的均衡解。具体地,当复用均衡给每个智能体带来的损失很小时,之前博弈中计算好的均衡将被直接作为当前博弈的最优解。基于这个思想,形式化定义了迁移损失(Transfer Loss)来衡量复用均衡给智能体带来的损失,并定义了迁移条件(Transfer Condition)来决定是否能够进行均衡迁移。将迁移损失和迁移条件引入基于均衡的多智能体强化学习中,提出基于均衡迁移的多智能体强化学习框架(Equilibrium Transfer-based MARL)。通过理论分析,证明了均衡迁移并不影响学习算法的收敛性。在通用测试集(如网格世界、足球游戏、墙壁游戏)中的实验结果表明均衡迁移不但能够显著地提高学习算法的学习速度(最高可以减少原有学习时间的96.7%),还能够提高学习算法的策略质量和可扩展性。 3.针对稀疏交互的多智能体系统中的学习问题,提出利用智能体在同一任务环境下的局部单智能体知识来提高多智能体强化学习性能的思想,并给出三种知识迁移方法,它们分别是值函数迁移(Value Function Transfer,VFT)、选择性值函数迁移(Selective Value Function Transfer,SVFT)和基于模型迁移的博弈约简(Model Transfer-based Game).