基于半马氏博弈模型的分层强化学习研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lengxiang520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL(multi-agent hierarchical reinforcement learning)协同框架。该模型弱化了系统对外界环境的要求,引入了随机时间步和通信策略的概念,更符合MAHRL研究的实际情况;协同框架中分别用SMG和SMDP模型对不同子任务进行建模,明确了Agent之间的协同机制。通过实验证明了SMG模型和协同框架的有效性和优越性。
其他文献
介绍了农村土壤污染的来源及危害,总结了其综合防治措施。
为得到准确的前瞻性话务量数据,有效解决呼叫中心资源合理分配和针对商旅类呼叫中心话务量的预测问题,建立了卡尔曼滤波器预测模型。依据卡尔曼滤波器算法特点,以及话务量数
<正>根据中华人民共和国国务院令第553号,我国于2009年7月1日正式开始实施的《民用机场管理条例》,该条例共计六章八十七条,其中非常明确规定了民航各级管理部门、各级地方政
目的分析妇产科护理中存在的感染问题,并根据问题探讨出相应的改善策略。方法选取我院2015年5月~2016年5月妇产科收治的患者2500例进行回顾性分析,将其分为对照组和实验组,各1250
期刊
虽然软件测试发展迅速,但仍存在生产率低、无法突显竞争优势等问题。为提高测试活动生产率,对软件复用思想进行了研究,提出了可重用测试用例的相关理论。针对无特定软件测试
为了提高无线传感器网络的能量利用率和延长网络的生命周期,提出了基于地理位置的能量高效的动态成簇算法(GL-DC),在簇的建立阶段,采用非均匀分簇方法,解决了簇首能量消耗不均衡问
维A酸类药物可调节上皮细胞的增殖和分化,且有抗炎作用,临床上常用于治疗角化异常性皮肤病,如银屑病、毛发红糠疹等。我科于2005年1月-2005年10月采用阿维A(商品名:方希,重庆华邦制
耿延君  253100 山东省平原县第一人民医院内科    摘 要 本文主要阐述了高血压与心脑血管的血流动力学及危害性,包括粥样硬化、冠心病、心力衰竭、心律失常及脑卒中。  关键词 高血压 0危险因子 粥样硬化 心脑血管病 防治     高血压与左心室肥厚    高血压常并发左心室肥厚。有人认为在高血压患者,舒张功能不全可发生在心肌结构发生明显异常之前,是由于心