多智能体分层强化学习综述

来源 :智能系统学报 | 被引量 : 0次 | 上传用户:hengkuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端等4种多智能体分层强化学习方法的算法原理
其他文献
目的分析多奈哌齐联合阿米替林治疗神经衰弱伴发认知障碍患者的临床效果。方法选取2018年1月~12月我院收治的神经衰弱伴发认知障碍患者100例,随机分为对照组和研究组,各50例
1月9日.“2009中国制造业信息化新年趋势论坛暨MIE年度风云榜颁奖盛典”在北京召开。中国制造业信息化的领跑者、拥有世界领先技术和本土化实施服务团队的Extech公司也应邀参
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
数控机床防护拉罩的分类、结构、特点,适用范围.推荐拉罩设计结构的选择形式,计算最大拉伸和最小压缩尺寸的方法。
结合物理实验教学示范中心建设,以培养兼具理论与实践、知识与技能的复合型人才为出发点,阐述了实验教学示范中心建设的意义,并从改革内容、改革目标、实施办法、预期效果等
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为了探讨去氟左氧氟沙星的合成工艺。本实验的起始原料用(2,3,4)-三氟苯甲酸,进行如下反应步骤:酰化、缩合、置换、关环、水解、取代。结果发现采用HPLC检测方法,得到产品纯
目的总结诊断性腹腔穿刺在基层外科急腹症中的应用价值。方法回顾性分析我院2000年3月—2012年3月依据腹腔穿刺术作出诊断的65例急腹症患者的临床资料。结果 65例患者共进行
目的:探讨开腹肝癌术后急性疼痛发生的特点及镇痛效果的影响因素。方法:选取广西医科大学第一附属医院肝胆外科2019年1~6月择期行开腹肝癌切除术手术的患者131例作为研究对象
1月10日,“2009年四川省高新技术产业重点产品展览会”在成都娇子会议中心举办,广泰数控作为四川省高新技术重点产品展参展企业,展出了最新的五轴联动铣削加工中心数控系统(GREAT