基于Markov对策的多Agent强化学习模型及算法研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:ytx200909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解. In MDP, single agent can find the optimal solution to the problem through reinforcement learning. However, in multi-agent systems, the MDP model no longer applies. The same minimum and maximum Q algorithm can only solve MAS learning problem using zero and countermeasure model. In this paper, the non-zero-sum Markov game is adopted as the learning framework of multi-agent system, and the learning model of meta-game reinforcement learning and the meta-solution Q algorithm are proposed. It is proved theoretically that Q - Metaphor Q - Convergence converges to the optimal solution to the meta - game of non - zero sum Markov games.
其他文献
当土体软弱或扰力较大时,基底一定深度内的主体将进入弹塑性状态,从而导致机器基础共振频率出现下降的非线性振动现象。本文扼要评述了几种由我国学者提出的基础非线性共振频率
在锤头型核酶下游增加一段核酶作用的靶序列,使之成为自切割的核酶.将自切割核酶基因合成,扩增并克隆在质粒pBluescript SK上,经连续4次克隆获得含10个拷贝的自切割核酶基因
针对运动链中各构件之间存在相似问题 ,以赋权拓扑图为基础 ,寻求到一种简便易行的判别构件相似的方法——关系码方法 .该方法避免了运动链再生为机构的发散过程中大量相似机
目的探讨中叶肺癌最大限度保留健肺的手术方法.方法 1994年6月至1999年8月,对16例中叶肺癌分别采取了中叶切除加支气管楔形切除12例,其中6例伴肺动脉部分切除,2例肺动脉袖式
本文按照GSM系统认证算法的标准而构造的杂凑函数符合平衡性、高非线性度及严格雪崩特性的设计准则从而能有效地抵抗线性攻击和差分攻击。针对HansDobbertin对MD4 的有效攻击 ,我们提出右移位数不确定性的设计准则
针对传统概率积分法求参程序仅适用于单工作面拟合求参的局限性和地表移动观测误差对参数精度的影响 ,提出了多工作面条件下求取概率积分计算参数的方法 ,并提出观测粗差的识
采用外加电场极化法 ,实现了 Li Nb O3 晶体的周期性极化 ,并制备出周期为 9.5μm的三阶准相位匹配周期性极化 Li Nb O3 晶体 (PPLN) ;用准连续钛宝石激光器作基频光源 ,对准
针对电力系统继电保护中接收较高频远方保护信号这一课题,通过理论推导,证明了在精度有限的实际系统中,低频化处理的优越性.根据理论分析结果,提出了将信号插入低频段后进行
讨论了CuxS薄膜注入氮离子对薄膜特性的影响.铜硫化合物薄膜经两次蒸发制备在玻璃上.实验发现,氮离子束注入引起了CuxS薄膜中铜与硫成分的改变,明显观察到样品中的铜对硫的比
目的 :研究健脾理气颗粒对大鼠胃溃疡及胃粘膜损伤的作用。方法 :采用水浸应激致胃溃疡及口服乙醇致胃粘膜损伤法制模 ,再用健脾理气颗粒 3个剂量组进行药效评价 ,并设对照组