Distributed policy evaluation via inexact ADMM in multi-agent reinforcement learning

来源 :控制理论与技术（英文版） | 被引量 : 0次 | 上传用户：tcsr888

【摘要】

：

This paper studies a distributed policy evaluation in multi-agent reinforcement learning. Under cooperative settings, each agent only obtains a local reward, wh

【作者】

：

Xiaoxiao Zhao Peng Yi Li Li

【机构】

：

College of Electronic and Information Engineering, Tongji University, Shanghai 201804, China;Institu

【出处】

：

控制理论与技术（英文版）

【发表日期】

：

2020年4期

【关键词】

：

Multi-agent system Reinforcement learning Distributed optimization Policy evalua

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

This paper studies a distributed policy evaluation in multi-agent reinforcement learning. Under cooperative settings, each agent only obtains a local reward, while all agents share a common environmental state. To optimize the global return as the sum of local return, the agents exchange information with their neighbors through a communication network. The mean squared projected Bellman error minimization problem is reformulated as a constrained convex optimization problem with a consensus constraint; then, a distributed alternating directions method of multipliers (ADMM) algorithm is proposed to solve it. Furthermore, an inexact step for ADMM is used to achieve efficient computation at each iteration. The convergence of the proposed algorithm is established.

其他文献

氯化高汞急性中毒性肾病一例报告

氯化高汞急性中毒性肾病一例报告乌鲁木齐铁路局中心防疫站（８３００１１）段军北京劳动卫生职业病研究所赵培青氯化高汞主要应用于医药、冶金、木材保存、印染、鞣革、电池和石印等多种行业

期刊

中毒性肾病急性肾功能衰竭劳动卫生木材保存血液透析肾功能二硫基丙磺酸钠透析疗法近曲小管细胞全身无力

铁路建设项目资本金筹集问题的思考

　　我国社会经济总体发展战略和实现和谐铁路发展的目标，既为铁路大规模建设提供了历史的发展机遇，又使铁路面临严峻的挑战。没有可靠的资金来源和雄厚的经济基础做支撑，实现各

会议

铁路建设项目资本金筹集投融资体制改革总体发展战略建设和发展总体思路资金来源

我国航空公司成本控制创新研究

　　本文在总结目前航空公司成本控制所采取的现行措施的基础上，引入了战略管理的思维和注重隐性成本的思维。采用价值链分析等战略管理的分析方法对成本控制工作进行了一定的

会议

航空公司成本控制战略管理机制创新

铁路运输工务设备专业大修理单位工程预算与运输成本预算合一管理的研究

　　本文从管理体制改革的角度，针对铁路运输工务设备专业大修理财务管理当前存在的突出问题，研究探讨大修理支出财务管理改革的新途径——实施铁路运输工务设备专业大修理单位

会议

铁路运输工务设备修理单工程预算成本预算大修理财务管理改革管理体制改革

浅析新形势下空管事业单位内部控制体系的建立

　　随着财政部各项内部控制制度的出台和我国空管体制改革的进一步深化，建立完善的空管事业单位内部控制体系已经势在必行。本文在COSO内部控制设计理念的基础上，针对事业单位

会议

新形势事业单位财务管理内部控制体系内部控制制度体制改革势在必行设计理念风险控制

铁路机务部门直接生产项目成本特性的技术经济分析

　　本课题以2007年国铁运输业财会工作的思路及重点为指引，依据铁道部关于开展全面预算管理的最新要求，运用成本性态分析方法等现代成本管理理论，结合太原铁路局机车运用及检修

会议

铁路客车空调耗油量预算定额及模型的分析

　　目前铁路客车空调耗油量预算编制是以铁路空调客车运行千辆公里和每千辆公里的耗油定额来确定。由于耗油定额基本来源于历史数据，导致耗油量预算与实际耗油量误差较大。为

会议

航空运输企业全面风险管理模式探究

　　目前国内航空企业既面临高负债率这一主要财务风险，也面临因引进飞机而产生的融资租赁风险。同时，中国民航企业要接轨世界空运市场，在全球范围内共享航空资源，更面临着不断升

会议

航空运输业企业全面风险管理民航运输企业租赁风险世界经济民航企业空运市场经营效果

京石铁路客专保定东站地基处理CFG桩施工工艺介绍

【摘要】本文结合京石铁路客专保定东站施工经验，详细介绍了FCG桩施工工艺。　　【关键词】铁路客专；地基处理；CFG桩；施工工艺　　1.工程概况　　CFG桩是英文Cement Fly-ash Gravel Pile的缩写，意为水泥粉煤灰碎石桩，由碎石、石屑、砂、粉煤灰掺水泥加水拌和，用各种成桩机械制成的可变强度桩。通过调整水泥掺量及配比，其强度等级在C15-C25之间变化，是介于刚性桩与柔性桩之间

期刊

铁路客专地基处理CFG桩施工工艺

上海市郊小型铅作业工厂的职业危害评价

对上海市郊两个县的１０家蓄电池厂和１家铅冶炼厂调查发现，５１个作业点的２３９个空气铅样品的几何平均浓度为０．０４２ｍｇ／ｍ３，作业点和样品的超标率分别为５０．９８％和５４．３９％；１９６名铅作业工人的几何平均血铅、ＺＰＰ水平分别为１．６８μｍｏｌ／Ｌ和２．６７μｍｏｌ／Ｌ，均

期刊

危害评价铅作业工人铅接触血铅水平蓄电池厂上海市郊铅浓度几何平均铅冶炼厂铅危害

Distributed policy evaluation via inexact ADMM in multi-agent reinforcement learning

与本文相关的学术论文