Distributed policy evaluation via inexact ADMM in multi-agent reinforcement learning

来源 :控制理论与技术(英文版) | 被引量 : 0次 | 上传用户:tcsr888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
This paper studies a distributed policy evaluation in multi-agent reinforcement learning. Under cooperative settings, each agent only obtains a local reward, while all agents share a common environmental state. To optimize the global return as the sum of local return, the agents exchange information with their neighbors through a communication network. The mean squared projected Bellman error minimization problem is reformulated as a constrained convex optimization problem with a consensus constraint; then, a distributed alternating directions method of multipliers (ADMM) algorithm is proposed to solve it. Furthermore, an inexact step for ADMM is used to achieve efficient computation at each iteration. The convergence of the proposed algorithm is established.
其他文献
氯化高汞急性中毒性肾病一例报告乌鲁木齐铁路局中心防疫站(830011)段军北京劳动卫生职业病研究所赵培青氯化高汞主要应用于医药、冶金、木材保存、印染、鞣革、电池和石印等多种行业
  我国社会经济总体发展战略和实现和谐铁路发展的目标,既为铁路大规模建设提供了历史的发展机遇,又使铁路面临严峻的挑战。没有可靠的资金来源和雄厚的经济基础做支撑,实现各
  本文在总结目前航空公司成本控制所采取的现行措施的基础上,引入了战略管理的思维和注重隐性成本的思维。采用价值链分析等战略管理的分析方法对成本控制工作进行了一定的
  本文从管理体制改革的角度,针对铁路运输工务设备专业大修理财务管理当前存在的突出问题,研究探讨大修理支出财务管理改革的新途径——实施铁路运输工务设备专业大修理单位
  随着财政部各项内部控制制度的出台和我国空管体制改革的进一步深化,建立完善的空管事业单位内部控制体系已经势在必行。本文在COSO内部控制设计理念的基础上,针对事业单位
  本课题以2007年国铁运输业财会工作的思路及重点为指引,依据铁道部关于开展全面预算管理的最新要求,运用成本性态分析方法等现代成本管理理论,结合太原铁路局机车运用及检修
会议
  目前铁路客车空调耗油量预算编制是以铁路空调客车运行千辆公里和每千辆公里的耗油定额来确定。由于耗油定额基本来源于历史数据,导致耗油量预算与实际耗油量误差较大。为
会议
  目前国内航空企业既面临高负债率这一主要财务风险,也面临因引进飞机而产生的融资租赁风险。同时,中国民航企业要接轨世界空运市场,在全球范围内共享航空资源,更面临着不断升
【摘 要】本文结合京石铁路客专保定东站施工经验,详细介绍了FCG桩施工工艺。  【关键词】铁路客专;地基处理;CFG桩;施工工艺  1.工程概况  CFG桩是英文Cement Fly-ash Gravel Pile的缩写,意为水泥粉煤灰碎石桩,由碎石、石屑、砂、粉煤灰掺水泥加水拌和,用各种成桩机械制成的可变强度桩。通过调整水泥掺量及配比,其强度等级在C15-C25之间变化,是介于刚性桩与柔性桩之间
对上海市郊两个县的10家蓄电池厂和1家铅冶炼厂调查发现,51个作业点的239个空气铅样品的几何平均浓度为0.042mg/m3,作业点和样品的超标率分别为50.98%和54.39%;196名铅作业工人的几何平均血铅、ZPP水平分别为1.68μmol/L和2.67μmol/L,均