多智能体深度强化学习及其可扩展性与可迁移性研究综述

来源 :控制与决策 | 被引量 : 0次 | 上传用户:wobushilaji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于深度学习强大的特征表达能力和强化学习有效的策略学习能力,深度强化学习在一系列复杂序贯决策问题中取得了令人瞩目的成就.伴随着深度强化学习在诸多单智能体任务中的成功应用,其在多智能体系统中的研究方兴未艾.近年来,多智能体深度强化学习在人工智能领域备受关注,可扩展与可迁移性已成为其中的核心研究点之一.首先阐释了深度强化学习的发展脉络和典型算法;进而介绍了多智能体深度强化学习的三种学习范式,分析了两类多智能体强化学习的典型算法,即分解值函数方法和中心化值函数方法;归纳了注意力机制、图神经网络等六类具有可扩展性的多智能体深度强化学习模型,梳理了迁移学习和课程学习在多智能体深度强化学习可迁移性方向的研究进展;最后讨论了多智能体深度强化学习的应用前景与研究方向,为未来多智能体深度强化学习的进一步发展提供了可借鉴的参考.
其他文献
<正>[核心问题]《百合花》是茹志鹃创作于20世纪50年代的一篇短篇小说,多次入选中学教材。作为一篇自发表之日起就备受关注的革命历史小说,作为一篇被当代文学界研究甚多的小说,作为一篇具有丰富性和隐秘性的作品,除了思想价值,还具有的什么样的艺术魅力,使它经久不衰、长期被读者关注?北京大学教授洪子诚在《中国当代文学史》中指出:“茹志鹃、刘真等在‘当代’对‘革命历史’的讲述,是有所不同的方式。
期刊
在以“三微一端”(微博、微信、微视频及客户端)为代表的新媒体时代,越来越多的人习惯通过电脑、手机端等获取新闻,电视新闻类节目面临着市场竞争力减弱、总体收视率下滑、受众群体急剧萎缩等一系列生存危机。为促使这一情况改观,电视新闻编辑记者一定要培养自身的创新策划意识,通过科学策划打造精品电视新闻节目,以扩大电视新闻节目的受众群体。基于此,本文立足策划意识视角,围绕电视新闻编辑记者策划意识培养的重要性、所
中国向世界宣布碳达峰、碳中和目标体现了应对全球气候变化的大国担当。自双碳目标提出以来,围绕碳达峰、碳中和的研究成果激增,对现有文献进行数据分析可以凝练研究主题,识别当前的研究热点与不足。本文以中国知网期刊数据库双碳相关文献为研究对象,采用系统聚类方法对413篇精选文献进行聚类,形成13类研究主题。为解读主题内涵,计算202个高频关键词对13类主题的信息增益,选取各主题信息增益前五位的关键词对主题内
研究目的:系统评价等速肌力训练结合其他疗法对缓解膝骨关节炎患者疼痛和改善膝关节功能的治疗效果。研究方法:检索中国知网、万方中文数据库、PubMed数据库、CyberLeninka数据库、Science Citation Index数据库和EBSCOhost外文全文数据库共6个中外文数据库。中文检索以等速肌力和膝骨关节炎等为主题词,外文检索以Isokinetic muscle strength,os
<正>患者男,55岁,左下肢静脉曲张20年,未经治疗,近1年酸胀肿痛;无其他特殊病史。查体:左下肢静脉曲张,左足踝部色素沉着,临床-病因-解剖-病理生理(clinical-etiology-anatomypathophysiology,CEAP)分级4级。实验室检查未见明显异常。下肢深静脉顺行造影示髂静脉受压≥50%,盆腔侧支显影。诊断:左髂静脉压迫综合征。于三维旋转重建数字减影血管造影(digi
《广州市生活垃圾分类管理条例》提出建立生活垃圾循环经济产业园,提升生活垃圾的处置能效,应急卫生填埋作为生活垃圾分类处理重要的环节,在城市生活垃圾处理中发挥了重要作用,应急填埋使得垃圾填埋气应运而生,在国家节能减排治污的高压态势和碳达峰、碳中和的政策要求下,垃圾填埋气有效提纯利用成为生活垃圾循环经济必须趋势。如何提纯利用垃圾填埋气,提纯LNG项目将是首要选择,本文以广州兴丰填埋气提纯LNG项目为研究
现代货币政策框架包括优化的货币政策目标体系、创新的货币政策工具体系和畅通的货币政策传导机制,价格型与数量型货币政策工具的协调运用是建设现代中央银行制度的一项重要内容。构建结构方程模型(SEM),分析SHIBOR对于货币供应量的综合影响效力,研究表明,SHIBOR对货币供应量影响效力总体比较微弱,SHIBOR与广义货币供应量指标之间存在负向关系,SHIBOR与狭义货币供应量指标之间存在正向关系,SH