一种基于团队马尔可夫博弈的多agent协同强化学习算法

来源 :复旦学报(自然科学版) | 被引量 : 0次 | 上传用户:shi123abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略.实验对该算法进行了验证,结果表明该算法是有效的.
其他文献
目的提高和完善明目固本颗粒的质量控制方法,并评价其体内效能。方法采用TLC法对方中菊花、枸杞子进行鉴别;采用HPLC法测定样品中绿原酸的含量。色谱条件:色谱柱为Welchrom C1
儿童启蒙音乐教育的水平高低决定着民族精神文明能否全面发展。在儿童启蒙教育中,视唱练耳课程是基础性课程,能够培养儿童学习音乐的能力,能培养儿童音乐审美性,培养儿童的创造力
2008年北京奥运会的申办进程以及申办成功,深刻地影响着全民健身活动开展的深度和广度,人们对全民健身活动的认识进一步增强,健身活动设施的建设得到了较快发展,全民健身活动的开
识字、写字是阅读和写作的基础,是低年级教学的重点,常言道“人生识字聪明始”,可见识字的重要。为了能够更好的完成识字教学的任务,笔者在教学实践中有了一点心得,即教学中要注意
现今各国都在大力发展农业机械自动化的研究许多成果已经达到实用化的阶段,下面主要介绍我国自动化的应用现状。我国现已装置的农业机械自动化,我国目前已经装备的农业机械自动
本文主要分析小学生学习几何特点、形成空间观念的心理特点及形成障碍,探讨通过直观教学、实践操作等方法培养小学生空间观念的教学策略,明确小学数学教师在教学过程中注意培养
新时期基础教育课程改革,无疑是中国教育史上的一场巨大变革。课堂教学的有效性,也就成了教育界人士常常谈论的论题。“教学”一词中的教,在英文中为teach,有“给人示例”的意思
质量是企业生存和发展的第一要素,在激烈的市场竞争中,企业应充分认识质量管理对企业发展的作用和影响。
“中国近现代史纲要”(以下简称“纲要”课)作为一门思想政治理论课,它主要是从历史教育的角度承担着对大学生进行思想政治教育的功能。教学实践证明,采取专题式教学模式可以有效
介绍了压电陶瓷粉末模压成型的研究现状,以及粉末材料有限元仿真所用的Drucker-Prager-Cap连续模型和屈服准则。基于有限元仿真法,论述了模压过程中摩擦行为、加载行为等工艺