基于随机博弈的Agent协同强化学习方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:birchwoods2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对一类追求系统得益最大化的协作团队的学习问题,基于随机博弈的思想,提出了一种新的多Agent协同强化学习方法。协作团队中的每个Agent通过观察协作相识者的历史行为,依照随机博弈模型预测其行为策略,进而得出最优的联合行为策略。
其他文献
笔者慕名去拜访达县机械二厂党委书记周荣高同志,一见面,他连珠炮似地讲开了企业,从发挥统战人才优势,到提高企业经济效益,全面介绍了十年来厂党委是怎样调动党外知识分子积
编缉先生: 我今年56岁,在民营企业四川安都企业集团任《安都报》主编、秘书处处长。早在五六十年代念大学时,我就立志加入民主党派,并对民盟先辈闻一多、李公朴等十分尊敬。
期刊
统一战线理论是在实践中产生、发展的科学。伟大的实践造就伟大的理论。建设有中国特色社会主义的宏伟事业向统一战线理论研究提出了一系列重大、紧迫而又具有开创性的课题,
上海发生“七君子事件” 1936年11月22日,国民党以“危害民国”的罪名,逮捕了沈钧儒、邹韬奋、李公朴、沙千里、史良、章乃器、王造时等7位著名的救国会领导人,史称“七君子
九三学社中央副主席、农业部副部长洪绂曾、社中央秘书长刘荣汉,9月1日至5日专程到广元考察了九广合作项目,省委统战部副部长李学明、九三省委名誉副主委罗蛰潭、副主委杨宗
在彭州市有一家面积为3000平方米、设施上档次,风格具特色,容中餐、火锅、夜总会、卡拉OK、住宿、健身、美容美发、商务为一体的综合性餐饮娱乐实体,这就是四川百乐门餐饮娱
本文设计并实现了一种新的实体机器人足球比赛中队伍阵型策略方法,此方法建立在对球的Markov预测模型基础上,将目标和阵型相融合,实现了阵型的动态选择以及阵型间的动态切换
阿坝州作为少数民族自治地区,统战工作对象量多面广,统战工作非常重要。近年来,我州统一战线为全州经济建设、社会发展,为民族团结、协调关系、维护稳定等做了大量工作。当前
政协委员攀钢学习组由全国、省、市、区四级政协委员组成,共计61人。他们分布在攀钢(集团)公司24个二级厂矿(单位),是公司生产经营、二期建设、科技开发、文教卫生等各条战线