多Agent深度强化学习综述

来源 :自动化学报 | 被引量 : 0次 | 上传用户：my525

【摘要】

：

近年来,深度强化学习(Deep reinforcement learning,DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学

【作者】

：

梁星星冯旸赫马扬程光权黄金才王琦周玉

【机构】

：

国防科技大学系统工程学院

【出处】

：

自动化学报

【发表日期】

：

2020年12期

【关键词】

：

多agent系统强化学习深度强化学习通用人工智能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,深度强化学习(Deep reinforcement learning,DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学习已经成为实现人工智能颇有前景的学习范式.然而,深度强化学习在多Agent系统的研究与应用中,仍存在诸多困难和挑战,以StarCraft II为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时,从多Agent深度强化学

其他文献

铝模板施工管理

由于模板存在周转次数少,容易变形等确定,而铝合金模板体系能够克服上述模板的种种缺点,故在铝模板体系被现代建筑更为广泛的采用,本论文主要结合某项目现场施工过程中铝合金

期刊

铝模板施工管理模板安装

不同剂量右美托咪定复合罗哌卡因对臂丛神经阻滞的效果及对IL-4、IFN-γ的影响

目的探讨右美托咪定复合罗哌卡因对臂丛神经阻滞起效时间、作用时间及对IL-4、IFN-γ的影响。方法选择2018年12月-2019年9月本院收治的行上肢手术患者60例作为研究对象,且所

期刊

右美托咪定罗哌卡因臂丛神经阻滞IL-4IFN-Γ

山西先秦时期的物流创新浅析

在我国先秦时代,山西作为文明起源地之一,在文化、艺术、经济等方面取得了辉煌成就。从历史文献中,至今仍能看到山西在先秦时代的物流创新与贡献。前事不忘后事之师,通过了解

期刊

山西先秦物流仓储创新

试论明清小说中韵文的模式及功用——以《型世言》为例

明清小说中的韵文是小说内容的重要组成部分,这些韵文对正文的内容有复指、同指的作用,对韵文以下的正文部分又有启引的作用,从整个篇章语义上来说,有时候又具有评论的功能。

期刊

明清小说《型世言》韵文功用

极端弱磁场环境生物效应:来自大鼠生理代谢及海马生长发育的证据

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

建设性新闻:真善美的新闻学实践

近年来,建设性新闻的理念和愿景引发了各界的广泛关注,对其跨学科研究已逐步成为业界显学。不同于西方传统的媒体责任理念,建设性新闻的媒体责任观更多的是一种指向社会整体

期刊

建设性新闻真善美社会责任constructive journalismtruthgoodnessbeautysocial responsibility

牢固树立马克思主义新闻观

期刊

构建多边合作新机制满足食品安全新期待第二届中国国际进口博览会“一带一路”生态农业与食品安全论坛举行

由国家市场监督管理总局、中国人民对外友好协会、中国国际贸易促进委员会、国际食品法典委员会共同主办的"一带一路"生态农业与食品安全论坛于2019年11月6日在上海国家会展

期刊

多边合作食品安全治理博览会安全论坛“一带一路”

无棣县人工牧草盐碱地改良示范工程

山东省无棣县是一个畜牧大县。由于天然草场载畜量较低，近几年对其进行了技术改造，采取了以水利为重点，农、林、牧相结合的措施，推广应用先进科技成果，旱、涝、碱综合治理，改造滨海

期刊

盐碱地土壤改良牧草saline land improvement forage grass

浅谈新形势下体育新闻报道的竞争

近年来,随着中国体育事业和新闻事业的迅速发展,体育新闻作为重要的新闻品种越来越受到新闻传播者和受众的重视。除专业的体育报纸外,都市报、晚报、党报及综合性报纸都十分

期刊

多Agent深度强化学习综述

与本文相关的学术论文