基于值分解的多智能体深度强化学习综述

来源 :计算机科学 | 被引量 : 1次 | 上传用户:yueyue7373
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。
其他文献
学生进入初中阶段之后,由于数学学习的难度在不断加大,部分学生没有掌握数学学习方法,导致学生的数学学习能力无法得到有效提高,在教学实践中,借助例题对学生的数学学习方法进行引导,对于培养学生数学学习能力能够发挥出积极的促进作用。结合目前初中学生数学学习现状对例题教学进行探讨,提出如何培养学生数学学习能力。
会议
随着生活水平的提高,人们对自身安全跟财产安全的需要进一步提高。为了让人们能够无忧无虑的享受生活的乐趣,设计一个能够保障人民生活自身安全跟财产安全的警报系统是很有必要的。文章根据实际设计一个结构合理,硬件电路较简单,成本比较低并且可靠性比较高的防火防盗的报警系统。通过DS18B20温度传感器、MQ-2烟雾传感器、人体红外传感器来检测外部的环境,当温度和烟雾浓度等级超过设置值时或者有人体进入时,产生声
期刊
乙醇偶合制备C4烯烃实验中,反应温度和催化剂组成,影响着乙醇转化率和C4烯烃的选择性。基于大连理工大学化学实验室针对不同催化剂组成及在不同温度下获得的一系列实验数据,研究了乙醇转化率和C4烯烃的选择性与温度的关系,建立了乙醇转化率和C4烯烃的选择性与催化剂组成以及反应温度的多元线性回归模型。最后,以C4烯烃收率为目标函数,将催化剂组成及反应温度作为约束条件,利用模拟退火算法,得到了最佳催化剂组成及
期刊
Linux系统不仅免费、开源,而且还安全稳定,通过学习简单的指令让程序员更快地入门,让大家早一点接触Linux系统,并用C语言进行简单的贪吃蛇游戏设计。贪吃蛇是许多人小时候的经典回忆,在对贪吃蛇游戏编写时会涉及地图,食物,蛇的更新,文章是基于Linux系统通过使用C语言进行蛇游戏的设计与编写,经过每一个功能的设计与测试一步一步地最终实现游戏呈现的效果。
期刊
随着雷达的发展,在低分辨率下传统的高斯模型不再适用于高分辨率下时变和重度拖尾的海杂波建模,可行的方法是使用具有纹理分量的复合高斯模型替代传统的高斯模型。本论文研究雷达目标检测问题,通过设计复合高斯杂波背景下的自适应检测算法,以提高在导向矢量匹配情况下的目标检测性能、导向矢量失配情况下的抗失配性能和确保恒虚警率(Constant False Alarm Rate,CFAR)特性。本论文建立在雷达杂波
学位
<正>笔者认为,要将青少年国防教育落到实处,必须做到以下几点。思想上高度重视。要教育引导青少年真正认识到国防教育的重要性。国防事关国家安全,事关国家政权,事关人民福祉。加强国防教育,就是要唤醒全国人民爱国报国的爱国主义情感、居安思危的忧患意识,强化保家卫国的责任担当,自觉肩负起维护和平与发展局面、保护国家和人民安全的光荣使命。
期刊
<正>“幸福的家庭都是相似的,不幸的家庭各有不同。”托尔斯泰以一句睿智的话语开启了19世纪后半叶的一部鸿篇巨著《安娜·卡列尼娜》;2022年金秋十月,一列火车载着中文版同名音乐剧呼啸着从上海大剧院舞台中央徐徐驶来,吸引了全场观众。
期刊
目的:探讨和研究药事管理干预方案对基层医疗机构中药注射剂使用的影响,为降低中药注射剂使用中的不良事件提供参考。方法:将2020年1月—2022年1月的接受中药注射剂治疗的118例患者作为研究的调查对象,根据患者的治疗时间分为对照组和观察组,每组59例。对照组接受常规的管理方法进行干预。观察组接受药事管理干预方法。结合医院的信息管理系统及处方管理系统中的数据对处方不合理情况进行统计,计算处方不合理总
期刊
百香果(Passiflora edulis Sims),作为药食同源水果,香气浓郁,酸甜可口,被誉为“水果之王”,其果肉、果皮和果籽均富含多种功能活性组分,具有抗氧化、抗炎、降血糖等功效。本文以富含生物活性物质的紫皮百香果为原料,在其原料品质评价基础上,以全果和果汁为原料酿制百香果酒,分别测定其有机酸、游离氨基酸、挥发性化合物含量以及酚类活性物质,并对百香果酒的滋味成分进行分析;采用紫皮百香果果肉
学位
随着电网规模的发展,电网数据海量增加,但是当前电网数据安全传输系统由于应用的数据加密技术较为落后,对海量数据的处理效果较差,导致其抗攻击能力较低,故本文设计了基于混沌加密的电网数据安全传输系统。在硬件设计中,优化嵌入式控制器以及信息存储电路,为软件优化提供基础。在软件设计中,借助四维Chen离散处理技术以及混沌动力学理论设计电网数据加密模块,并采用加权残差检测数据交汇过程,构建电网数据网络攻击检测
期刊