多智能体强化学习中的博弈、均衡和知识迁移

来源 :南京大学 | 被引量 : 1次 | 上传用户:longeLRTT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能和多智能体系统研究领域,多智能体强化学习是一种重要的学习技术。它作为强化学习、多智能体系统、博弈论等技术的综合,已经被成功地应用于机器人足球、宽带网络、QoS路由等领域。尽管多智能体强化学习已经发展了数十年的时间,在理论和算法方面也取得了丰硕的成果,但现有的大多数多智能体强化学习算法都不具备较好的可扩展性,在状态空间较大和智能体数量较多的学习任务中一直难以取得较好的效果。其原因主要包括:均衡计算的巨大代价、多智能体强化学习模型的复杂性、对已有知识的利用不足、状态空间的维度灾难以及多智能体系统的维度灾难。针对现有多智能体强化学习方法的可扩展性较差这一问题,本文结合博弈论、函数估计、迁移学习等技术来展开相应的研究工作,其主要贡献可以归纳如下:  1.针对基于均衡的多智能体强化学习方法中共享值函数这一不现实的假设,提出了一种不共享值函数的多智能体强化学习算法NegoQ。其主要创新点在于:(1) NegoQ算法采用三种纯策略均衡来作为信息分布条件下的博弈最优解,它们分别是纯策略纳什均衡(Pure Strategy Nash Equilibrium,PNE)、均衡优超策略组(Equilibrium-Dominating Strategy Profile,EDSP)和弱均衡优超策略组(Non-Strict EDSP)。其中,均衡优超策略组和弱均衡优超策略组是效用值比一个或多个纯策略纳什均衡高的策略组,它们鼓励智能体之间的合作。基于元博弈理论,本文证明了这三种纯策略都是对称元均衡,从理论上提供了它们的可解释性。(2) NegoQ算法采用一种多步协商的方式来对三种纯策略均衡进行分布式地求解,避免了对值函数的共享。在网格世界中的实验结果表明,NegoQ算法不仅具有良好的收敛性,并且其学习速度远远高于NashQ、CEQ等现有算法。在追击游戏中的实验结果表明,NegoQ算法虽然并不是针对合作型学习任务而设计,但却拥有与面向合作的多智能体强化学习算法一样甚至更出色的性能。  2.针对基于均衡的多智能体强化学习方法具有较高计算复杂度这一问题,提出采用均衡迁移(Equilibrium Transfer)的方式来避免在学习过程中进行大量的均衡计算,从而达到对学习算法加速的目的。其主要思想是在当前博弈中复用之前的相似博弈的均衡解。具体地,当复用均衡给每个智能体带来的损失很小时,之前博弈中计算好的均衡将被直接作为当前博弈的最优解。基于这个思想,形式化定义了迁移损失(Transfer Loss)来衡量复用均衡给智能体带来的损失,并定义了迁移条件(Transfer Condition)来决定是否能够进行均衡迁移。将迁移损失和迁移条件引入基于均衡的多智能体强化学习中,提出基于均衡迁移的多智能体强化学习框架(Equilibrium Transfer-based MARL)。通过理论分析,证明了均衡迁移并不影响学习算法的收敛性。在通用测试集(如网格世界、足球游戏、墙壁游戏)中的实验结果表明均衡迁移不但能够显著地提高学习算法的学习速度(最高可以减少原有学习时间的96.7%),还能够提高学习算法的策略质量和可扩展性。  3.针对稀疏交互的多智能体系统中的学习问题,提出利用智能体在同一任务环境下的局部单智能体知识来提高多智能体强化学习性能的思想,并给出三种知识迁移方法,它们分别是值函数迁移(Value Function Transfer,VFT)、选择性值函数迁移(Selective Value Function Transfer,SVFT)和基于模型迁移的博弈约简(Model Transfer-based Game).
其他文献
本文以防空CI系统为研究背景,首先介绍了工作流的相关概念、发展史以及目前的研究热点。接着以工作流产品发展为线索,研究了实现工作流的主要技术。针对工作流建模复杂的特点,结
Web服务(和实现Web服务的组件)是目前最重要的Web资源,作为新一代Web的基本构成元素,Web服务包括静态的信息、知识、计算资源和物理操作。但由于单个的服务能够提供的功能有限,
学位
Web
入侵检测技术是近20年来出现的一种有效保护网络系统免受网络攻击的新型网络安全技术,已经成为了网络安全领域研究的热点之一。在网络技术迅速发展、网络安全问题日益突出的环
随着互联网的不断发展,分布式网络环境的开放性、分散性、信任的非集中性等特性使得其安全性问题受到人们越来越多的关注。而认证问题是其安全问题中首要考虑的问题,本文在已有
学位
学位
作为信息存储和处理的一个核心环节,数据库管理系统的安全性在整个信息安全体系结构中起着至关重要的作用。高等级数据库管理系统的设计与测评既是当前发展的客观需求,同时也是
学位
二十世纪的最后十年,被联合国十年减灾委员会倡议为“国际减灾十年”,旨在减轻多种灾害的损失。在各种灾害中,地质灾害是危害人类生存最大的自然灾害之一,往往在瞬间就造成巨大的
数据模型是信息系统开发和应用的基本指南,是给定环境下的数据的抽象或表示,是数据库系统的数学形式框架、数据库系统的核心和基础。数据参考模型是某一领域内通用数据模型的说
学位
GPS轮胎吊自动驾驶程序是安装在码头轮胎吊上用来辅助司机自动驾驶的一种实时性较高的嵌入式软件。虽然目前可以满足基本的功能需求,但是其运行在原始的DOS系统上,具有扩展性差
嵌入式应用平台和集成开发技术是近年来IT行业的热点之一,这种高效的应用结构以嵌入式硬件平台和操作系统为基础,搭建普遍适用的应用环境,为嵌入式软件开发带来了更加灵活的选择