Multi-agent reinforcement learning based on policies of global objective

来源 :系统工程与电子技术:英文版 | 被引量 : 0次 | 上传用户:lixin200513137149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
In general-sum games, taking all agent's collective rationality into account, we define agents' global objective,and propose a novel multi-agent reinforcement learning(RL) algorithm based on global policy. In each learning step, all agents commit
其他文献
间接语言现象是自然语言交际中非常普遍的现象。间接语言有很多表现方式,本文探讨的是两种最典型的方式——间接言语行为和隐喻,在语用学的框架中梳理了各自的发展,分析了它
十月革命后,马克思主义在中国得到广泛传播。中共早期报刊在其中发挥了重要作用。中共早期报刊通过出版专号特刊对马克思主义进行了集中传播,各报刊在相互配合中对马克思主义
以电源完整性(PI)理论为指导提出了基于有限元仿真分析的新能源电动汽车电机控制器的硬件设计方法。分析了电源完整性的影响因素,采用SIwave软件对该系统控制板的PCB进行电源
Predictive control has recently received much attention from researchers. However a challenging problem to be solved is how to tune the parameters of the predic
<正>艺术的起源对于美学、文艺学和艺术学来说是一个重要课题,国内学界对其进行的讨论在上世纪末较为热烈,除了数量众多的学术文章外,朱狄(1982)、杨志明与章建刚(1996)和郑
Transmit diversity has been recently proposed to reduce the effects of fading channels in various wireless applications. Orthogonal transmit diersity (OTD) is o
电力系统发展中,互感器的运行管理相对注重长周期的检测,缺乏完整的安全监测与运行状态评估体系,从而导致因互感器异常而出现偏差的结果.因此,从数据的角度对互感器的测量数
在利率市场化步伐加快的情况下,利率在我国货币政策的传导中所起的作用越来越大,本文主要针对我国1996年到2002间连续八次下调利率来分析利率在我国货币政策传导中的三个阶段
目的探讨老年股骨颈骨折患者采用人工股骨头置换术和全髋关节置换术治疗的效果及对患者生活质量的影响。方法方便选取该院2010年12月—2014年12月收治的老年股骨颈骨折患者68
企业资源计划(ERP)作为因特网环境下管理集成、资源集成的信息系统,其实施是一项高风险和高成本的工作。企业资源计划(ERP)在国内企业信息化建设工作中举足轻重,对钢铁企业ER