元博弈平衡和多Agent强化学习的MetaQ算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:dafeidafeifeida
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免
其他文献
为了全面了解承德市接坝地区牛、羊包虫病和犬棘球绦虫感染状况,试验采用剖检法检测牛、羊宰后脏器,动物包虫抗体酶联免疫吸附法(ELISA)检测牛羊血清,犬细粒棘球绦虫抗原ELIS