基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

来源 :计算机应用 | 被引量 : 1次 | 上传用户：dian

【摘要】

：

针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用"中心训练-分散执行"的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet)。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联

【作者】

：

姚兴虎谭晓阳

【机构】

：

南京航空航天大学计算机科学与技术学院,模式分析与机器智能工业和信息化部重点实验室（南京航空航天大学）,南京航空航天大学软件新技术与产业化协同创新中心

【出处】

：

计算机应用

【发表日期】

：

2021年01期

【关键词】

：

深度学习深度强化学习多智能体强化学习多智能体系统全局信用分配 deep learning deep reinforcement learning mul

【基金项目】

：

国家自然科学基金资助项目(61976115,61672280,61732006),装备预研基金资助项目(6140312020413),南京航空航天大学人工智能+项目(56XZA18009),全军共用信息系统装备预研项目(315025305),南京航空航天大学研究生创新基金资助项目(Kfjj20191608)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

机器人模拟如何停车入库

之前的两期，我们初步了解了IRobotQ3D（光盘中下载）的界面和基本功能，接下来，我们来用学过的知识完成一个特定的任务。一、任务分析侄务要求：机器人小车在一个停车平台上，需要从起始

期刊

机器人停车位入库模拟直流电机控制器小车下载

不同培养基对铁皮石斛种子萌发和壮苗生根的影响

以铁皮石斛种子为材料,通过组织培养技术,不添加植物生长调节剂直接得到丛生芽,并比较天然有机物、活性炭等添加物对铁皮石斛丛生芽壮苗生根的影响,优化铁皮石斛组培快繁技术

期刊

铁皮石斛培养基种子萌发壮苗生根影响Dendrobium candidumMediumSeed germinationStrong seedlin

化肥减量配施有机肥对水稻产量及氮肥利用率的影响

为研究水稻减肥条件下配施有机肥对水稻产量及氮肥利用率的影响,选用“秋优金丰”为供试品种,开展了一季大田试验,共设4组12个肥料运筹处理,分别为常规施肥处理、减肥20%处理

期刊

水稻化肥减量有机无机配施产量氮肥利用率PaddyReduction of fertilizer applicationOrganic and ch

云计算技术下的预拌混凝土行业在线质量管控

研发了混凝土运营生产管理系统(TOPS),该系统基于云计算平台,业务信息系统与装置在线协同,强化生产控制的自动化和智能化水平,结合混凝土生产的海量数据,利用信息化技术管理

期刊

混凝土云计算人工智能质量管控concretecloud computingartificial intelligencequality contr

我会始终跟随你的脚步——红外传感器在机器人足球比赛中的应用

足球运动是一项大家都非常喜爱的运动。让机器人去踢足球,听起来像是天方夜谭,不过,这并不是不可能完成的任务,各种传感器和硬件设备可以作为机器人的眼睛、双腿和大脑,只要

期刊

机器人足球红外传感器足球运动员应用赛中足球比赛硬件设备比赛规则

基于规范化建设的高校党建网络平台开发

文章采取文献法、访谈法、行动研究法等方法,对高校党建网络平台的现状、目标、功能、技术进行了深层次分析研究,研究勾勒出:表示层、业务层、接口层、数据库层等高校党建网

期刊

规范化党建网络standardizationparty constructionnetwork

轨道交通车辆碰撞吸能安全性研究

论述了轨道交通车辆碰撞非线性理论,基于上海轨道交通8号线车辆,建立轨道交通车辆三维碰撞有限元模型,应用LS-DYNA仿真软件进行计算、分析,进而对轨道交通车辆碰撞吸能安全性

期刊

轨道交通车辆碰撞吸能安全性Rail TransitVehicleCollisionEnergy AbsorptionSafety

历史背景下的个人书写——论“江南三部曲”的经典性

＂江南三部曲＂是格非以现实题材建构的个人书写,在大时代背景下维持故事的独立性和创造性,展现文字背后的真实意图。建构当代文学经典是时代的要求,文章从写作的意图入手,整理文

期刊

“江南三部曲”虚构写实历史经典＂Jiangnan trilogy＂ fiction realistic history classic

EIF表情包的制作

淀粉的烦恼自从有了QQ表情,它让我们的聊天更加生动,各种情绪的表达更为突出。收集表情也成为我们必备的工作了,嘻嘻,没有几百个表情收集,出门都不好意思跟人说话。但是我很

期刊

表情制作收集

我们若只如初见

相识老实说，我比不上“少电”许多铁杆淀粉。至少从订阅“少电”的时长来看，我不是他们的对手。

期刊

《少年电脑世界》期刊编辑工作发行工作

基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

与本文相关的学术论文