一般和博弈中的合作多agent学习

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:chuanqi111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
理性和收敛是多agent学习研究所追求的目标.在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性.另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agento决策,从而保证学习的收敛性.利用2人栅格游戏对多种算法进行验证,成功率的比较说明了所提算法具有较好的学习性能.
其他文献
以无水碳酸钾为催化剂、十六烷基三甲基溴化铵(HTMAB)为活化剂,用水杨醛和醋酸酐为原料通过Perkin反应合成香豆素,研究了物料比、催化剂用量和HTMAB用量和反应近结束时保温时
冷带轧机厚控系统可被认为是一个受外界干扰的线性不确定时滞系统.本文首先设计了标称系统下的鲁棒输出反馈动态控制器,以改善闭环系统的动静态性能;其次,在系统不需要满足不确定
培育学生的核心素养是当前国内外教育研究领域的热门课题。本文在对国内外核心素养的内涵梳理之后,从创新发展、批判性思维、交流与合作、终身学习与发展等四个维度重新界定了
文言文教学对于培养学生的语文核心素养有积极的促进作用。小学阶段的文言文多篇幅短小,寓意深刻,声韵优美,趣益融合。在核心素养要求下,文言文教学要注重学生理解能力、审美
针对胜利油田孤东采油厂高酸值原油,以自制的天然混合羧酸盐SDC-3为表面活性剂,通过相态研究方法,得出最佳配方体系.它与原油形成的中相乳状液达到Frenoh四级标准,即含有质量
前向无同步前向无冲突网是每个变迁有且只有一个输入库所并且每个库所最多有一个输入变迁的受限Petri网.针对不可控影响子网为前向无同步前向无冲突网的广义互斥约束,显式地