基于Markov对策的多Agent强化学习模型及算法研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：ytx200909

【摘要】

：

在ＭＤＰ中，单Ａｇｅｎｔ可以通过强化学习来寻找问题的最优解．但在多Ａｇｅｎｔ系统中，ＭＤＰ模型不再适用．同样极小极大Ｑ算法只能解决采用零和对策模型的ＭＡＳ学习问题．文中采用非零和Ｍａｒｋｏｖ对策作为多Ａｇｅｎｔ系统学习框架，并提出元对

【作者】

：

高阳周志华何佳洲陈世福

【机构】

：

南京大学计算机软件新技术国家重点实验室! 南京　210093,南京大学计算机软件新技术国家重点实验室! 南京　210093,南京大学计算机软件新技术国家重点实验室! 南京　210093,南京大学计算机

【出处】

：

计算机研究与发展

【发表日期】

：

2000年03期

【关键词】

：

元对策强化学习多Agent系统非零和Markov对策

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在ＭＤＰ中，单Ａｇｅｎｔ可以通过强化学习来寻找问题的最优解．但在多Ａｇｅｎｔ系统中，ＭＤＰ模型不再适用．同样极小极大Ｑ算法只能解决采用零和对策模型的ＭＡＳ学习问题．文中采用非零和Ｍａｒｋｏｖ对策作为多Ａｇｅｎｔ系统学习框架，并提出元对策强化学习的学习模型和元对策Ｑ算法．理论证明元对策Ｑ算法收敛在非零和Ｍａｒｋｏｖ对策的元对策最优解． In MDP, single agent can find the optimal solution to the problem through reinforcement learning. However, in multi-agent systems, the MDP model no longer applies. The same minimum and maximum Q algorithm can only solve MAS learning problem using zero and countermeasure model. In this paper, the non-zero-sum Markov game is adopted as the learning framework of multi-agent system, and the learning model of meta-game reinforcement learning and the meta-solution Q algorithm are proposed. It is proved theoretically that Q - Metaphor Q - Convergence converges to the optimal solution to the meta - game of non - zero sum Markov games.

其他文献

关于基础非线性共振频率的实用算式

当土体软弱或扰力较大时，基底一定深度内的主体将进入弹塑性状态，从而导致机器基础共振频率出现下降的非线性振动现象。本文扼要评述了几种由我国学者提出的基础非线性共振频率

期刊

机器基础共振频率非线性

快速制备RNA小分子质量标记的新方法

在锤头型核酶下游增加一段核酶作用的靶序列,使之成为自切割的核酶.将自切割核酶基因合成,扩增并克隆在质粒pBluescript SK上,经连续4次克隆获得含10个拷贝的自切割核酶基因

期刊

锤头型核酶自切割体外转录RNA分子质量标记

构件相似性判定的关系码方法

针对运动链中各构件之间存在相似问题 ,以赋权拓扑图为基础 ,寻求到一种简便易行的判别构件相似的方法——关系码方法 .该方法避免了运动链再生为机构的发散过程中大量相似机

期刊

机构创新设计构件相似

支气管肺血管成形重建治疗中叶肺癌

目的探讨中叶肺癌最大限度保留健肺的手术方法.方法 1994年6月至1999年8月,对16例中叶肺癌分别采取了中叶切除加支气管楔形切除12例,其中6例伴肺动脉部分切除,2例肺动脉袖式

期刊

肺癌支气管肺血管手术重建

GSM系统认证算法的设计与安全性分析

本文按照GSM系统认证算法的标准而构造的杂凑函数符合平衡性、高非线性度及严格雪崩特性的设计准则从而能有效地抵抗线性攻击和差分攻击。针对HansDobbertin对MD4 的有效攻击 ,我们提出右移位数不确定性的设计准则

期刊

GSM系统认证算法杂凑算法

多工作面开采影响下求取地表移动参数方法研究

针对传统概率积分法求参程序仅适用于单工作面拟合求参的局限性和地表移动观测误差对参数精度的影响 ,提出了多工作面条件下求取概率积分计算参数的方法 ,并提出观测粗差的识

期刊

多工作面地表移动参数概率积分法观测粗差识别

准相位匹配LiNbO3蓝光倍频器的研究

采用外加电场极化法 ,实现了 Li Nb O3 晶体的周期性极化 ,并制备出周期为 9.5μm的三阶准相位匹配周期性极化 Li Nb O3 晶体 (PPLN) ;用准连续钛宝石激光器作基频光源 ,对准

期刊

LiNbO3晶体周期性极化准相位匹配倍频

远方保护信号接收低频化技术的理论分析与应用

针对电力系统继电保护中接收较高频远方保护信号这一课题,通过理论推导,证明了在精度有限的实际系统中,低频化处理的优越性.根据理论分析结果,提出了将信号插入低频段后进行

期刊

保护信号自适应陷波器维纳解低频化

由离子注入引起的CuxS薄膜的状态变化

讨论了CuxS薄膜注入氮离子对薄膜特性的影响.铜硫化合物薄膜经两次蒸发制备在玻璃上.实验发现,氮离子束注入引起了CuxS薄膜中铜与硫成分的改变,明显观察到样品中的铜对硫的比

期刊

CuxS薄膜离子注入相变透射率

健脾理气颗粒对大鼠胃溃疡作用的研究

目的 :研究健脾理气颗粒对大鼠胃溃疡及胃粘膜损伤的作用。方法 :采用水浸应激致胃溃疡及口服乙醇致胃粘膜损伤法制模 ,再用健脾理气颗粒 3个剂量组进行药效评价 ,并设对照组

期刊

胃溃疡胃炎健脾理气颗粒

基于Markov对策的多Agent强化学习模型及算法研究

与本文相关的学术论文