基于半马氏博弈模型的分层强化学习研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：lengxiang520

【摘要】

：

针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL（multi-agent hierarchical reinforcement learning）协同框架。该模型弱化了

【作者】

：

李誌胡坤余雪丽

【机构】

：

太原理工大学计算机科学与技术学院

【出处】

：

计算机工程与设计

【发表日期】

：

2012年9期

【关键词】

：

多AGENT强化学习分层强化学习部分感知半马氏博弈模型协同框架 multi-Agent reinforcement learning hierarchi

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL（multi-agent hierarchical reinforcement learning）协同框架。该模型弱化了系统对外界环境的要求,引入了随机时间步和通信策略的概念,更符合MAHRL研究的实际情况;协同框架中分别用SMG和SMDP模型对不同子任务进行建模,明确了Agent之间的协同机制。通过实验证明了SMG模型和协同框架的有效性和优越性。

其他文献

农村土壤污染来源及防治措施

介绍了农村土壤污染的来源及危害,总结了其综合防治措施。

期刊

土壤污染农村来源危害防治

扑尔敏在治疗小儿腹泻中的作用

期刊

小儿腹泻扑尔敏思密达

基于卡尔曼滤波的呼叫中心话务量预测

为得到准确的前瞻性话务量数据,有效解决呼叫中心资源合理分配和针对商旅类呼叫中心话务量的预测问题,建立了卡尔曼滤波器预测模型。依据卡尔曼滤波器算法特点,以及话务量数

期刊

卡尔曼滤波呼叫中心话务量预测季节周期

如何推动我国机场货站特许经营健康发展

<正>根据中华人民共和国国务院令第553号,我国于2009年7月1日正式开始实施的《民用机场管理条例》,该条例共计六章八十七条,其中非常明确规定了民航各级管理部门、各级地方政

期刊

管理当局特许专营权特许经营健康发展

妇产科护理中感染问题的分析和探讨

目的分析妇产科护理中存在的感染问题，并根据问题探讨出相应的改善策略。方法选取我院2015年5月～2016年5月妇产科收治的患者2500例进行回顾性分析，将其分为对照组和实验组，各1250

期刊

妇产科护理感染问题对策

中国计算机学会2014年8月-9月部分活动计划

期刊

基于比对的测试过程改进模型研究

虽然软件测试发展迅速,但仍存在生产率低、无法突显竞争优势等问题。为提高测试活动生产率,对软件复用思想进行了研究,提出了可重用测试用例的相关理论。针对无特定软件测试

期刊

软件测试可重用测试用例基准比对软件测试过程改进software testing reusable testing case benchmarking

能量高效的无线传感器网络动态分簇算法研究

为了提高无线传感器网络的能量利用率和延长网络的生命周期，提出了基于地理位置的能量高效的动态成簇算法（GL-DC），在簇的建立阶段，采用非均匀分簇方法，解决了簇首能量消耗不均衡问

期刊

无线传感器网络动态分簇能量高效地理位置最大生存周期wireless sensor networks dynamic clustering energy

阿维A治疗毛发红糠疹10例临床疗效分析

维A酸类药物可调节上皮细胞的增殖和分化，且有抗炎作用，临床上常用于治疗角化异常性皮肤病，如银屑病、毛发红糠疹等。我科于2005年1月-2005年10月采用阿维A（商品名：方希，重庆华邦制

期刊

毛发红糠疹疗效分析阿维A治疗临床角化异常性皮肤病维A酸类药物上皮细胞

高血压与心脑血管疾病研究

耿延君　　253100 山东省平原县第一人民医院内科　　　　摘要本文主要阐述了高血压与心脑血管的血流动力学及危害性，包括粥样硬化、冠心病、心力衰竭、心律失常及脑卒中。　　关键词高血压 0危险因子粥样硬化心脑血管病防治　　　　高血压与左心室肥厚　　　　高血压常并发左心室肥厚。有人认为在高血压患者，舒张功能不全可发生在心肌结构发生明显异常之前，是由于心

期刊

高血压危险因子粥样硬化心脑血管病防治

基于半马氏博弈模型的分层强化学习研究

与本文相关的学术论文