基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

来源 :计算机应用 | 被引量 : 1次 | 上传用户:dian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用"中心训练-分散执行"的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet)。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联系,进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先,在训练过
其他文献
之前的两期,我们初步了解了IRobotQ3D(光盘中下载)的界面和基本功能,接下来,我们来用学过的知识完成一个特定的任务。一、任务分析侄务要求:机器人小车在一个停车平台上,需要从起始
以铁皮石斛种子为材料,通过组织培养技术,不添加植物生长调节剂直接得到丛生芽,并比较天然有机物、活性炭等添加物对铁皮石斛丛生芽壮苗生根的影响,优化铁皮石斛组培快繁技术
为研究水稻减肥条件下配施有机肥对水稻产量及氮肥利用率的影响,选用“秋优金丰”为供试品种,开展了一季大田试验,共设4组12个肥料运筹处理,分别为常规施肥处理、减肥20%处理
研发了混凝土运营生产管理系统(TOPS),该系统基于云计算平台,业务信息系统与装置在线协同,强化生产控制的自动化和智能化水平,结合混凝土生产的海量数据,利用信息化技术管理
足球运动是一项大家都非常喜爱的运动。让机器人去踢足球,听起来像是天方夜谭,不过,这并不是不可能完成的任务,各种传感器和硬件设备可以作为机器人的眼睛、双腿和大脑,只要
文章采取文献法、访谈法、行动研究法等方法,对高校党建网络平台的现状、目标、功能、技术进行了深层次分析研究,研究勾勒出:表示层、业务层、接口层、数据库层等高校党建网
论述了轨道交通车辆碰撞非线性理论,基于上海轨道交通8号线车辆,建立轨道交通车辆三维碰撞有限元模型,应用LS-DYNA仿真软件进行计算、分析,进而对轨道交通车辆碰撞吸能安全性
"江南三部曲"是格非以现实题材建构的个人书写,在大时代背景下维持故事的独立性和创造性,展现文字背后的真实意图。建构当代文学经典是时代的要求,文章从写作的意图入手,整理文
淀粉的烦恼自从有了QQ表情,它让我们的聊天更加生动,各种情绪的表达更为突出。收集表情也成为我们必备的工作了,嘻嘻,没有几百个表情收集,出门都不好意思跟人说话。但是我很
相识老实说,我比不上“少电”许多铁杆淀粉。至少从订阅“少电”的时长来看,我不是他们的对手。