一般和博弈中的合作多agent学习

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：chuanqi111

【摘要】

：

理性和收敛是多agent学习研究所追求的目标．在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习，使agent更具理性．另一方面引入社会公约来启动和约

【作者】

：

宋梅萍顾国昌张国印刘海波

【机构】

：

哈尔滨工程大学计算机科学与技术学院

【出处】

：

控制理论与应用

【发表日期】

：

2007年2期

【关键词】

：

多AGENT学习一般和随机博弈 NASH平衡 PARETO占优 Q-学习 multi-agent learning general-sum game Nash

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

理性和收敛是多agent学习研究所追求的目标．在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习，使agent更具理性．另一方面引入社会公约来启动和约束agent的推理，统一系统中所有agento决策，从而保证学习的收敛性．利用2人栅格游戏对多种算法进行验证，成功率的比较说明了所提算法具有较好的学习性能．

其他文献

十六烷基三甲基溴化铵活化催化合成香豆素

以无水碳酸钾为催化剂、十六烷基三甲基溴化铵(HTMAB)为活化剂,用水杨醛和醋酸酐为原料通过Perkin反应合成香豆素,研究了物料比、催化剂用量和HTMAB用量和反应近结束时保温时

期刊

十六烷基三甲基溴化铵香豆素PERKIN反应无水碳酸钾hexadecyl-trimethyl-ammonium bromidecoumarinPerkin

冷带轧机厚控系统自适应鲁棒输出反馈动态控制器设计

冷带轧机厚控系统可被认为是一个受外界干扰的线性不确定时滞系统．本文首先设计了标称系统下的鲁棒输出反馈动态控制器，以改善闭环系统的动静态性能；其次，在系统不需要满足不确定

期刊

冷带轧机厚度控制系统鲁棒输出反馈动态控制自适应控制不确定系统cold strip rolling mill thickness control sys

学生的核心素养及其在思维教学中的培育

培育学生的核心素养是当前国内外教育研究领域的热门课题。本文在对国内外核心素养的内涵梳理之后，从创新发展、批判性思维、交流与合作、终身学习与发展等四个维度重新界定了

期刊

思维教学核心素养终身学习

基于核心素养的小学部编教材文言文教学策略摭谈

文言文教学对于培养学生的语文核心素养有积极的促进作用。小学阶段的文言文多篇幅短小,寓意深刻,声韵优美,趣益融合。在核心素养要求下,文言文教学要注重学生理解能力、审美

期刊

小学语文核心素养文言文部编教材教学策略

混合羧酸盐复合驱油体系的研究（Ⅰ）——针对高酸值原油

针对胜利油田孤东采油厂高酸值原油,以自制的天然混合羧酸盐SDC-3为表面活性剂,通过相态研究方法,得出最佳配方体系.它与原油形成的中相乳状液达到Frenoh四级标准,即含有质量

期刊

表面活性剂复合驱油体系相态界面张力surfactantASP flooding systemsphase behaviorinterfacial ten

一类离散事件系统的监控器综合

前向无同步前向无冲突网是每个变迁有且只有一个输入库所并且每个库所最多有一个输入变迁的受限Petri网.针对不可控影响子网为前向无同步前向无冲突网的广义互斥约束,显式地

期刊

离散事件系统监控PETRI网discrete event systems supervisory control Petri nets

一般和博弈中的合作多agent学习

与本文相关的学术论文