基于联合博弈的多Agent学习

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:ivyJZ2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在研究Q-Learning算法的基础上,将博弈论中的团队协作理论引入到强化学习中,提出了一种基于联合博弈的多Agent学习算法。该算法通过建立多个阶段博弈,根据回报矩阵对阶段博弈的结果进行评估,为其提供一种有效的A-gent行为决策策略,使每个Agent通过最优均衡解或观察协作Agent的历史动作和自身当前情况来预测其所要执行的动作。对任务调度问题进行仿真实验,验证了该算法的收敛性。
其他文献
严格贷前准入:重点抓住真实性。以现场面谈面签、现场核抵核保、现场核查核验为主要内容和抓手。真正落实新客户和增贷客户“一把手”面谈制度、合同文本面签制度,固定资产等
随着互联网技术和自媒体平台的蓬勃发展,我国进入了信息高速传播的自媒体时代。微信公众号作为当今自媒体最受欢迎的形式之一,扩充了公众发布、获取和交流信息的方式与途径。
目的:探讨肺部纯磨玻璃密度结节(pure groung-glass opacity nodule,p GGN)的CT影像特征及临床特点对于浸润前病变(preinvasive lesion,PIL)[包括不典型腺瘤样增生(atypical
本文试验了用直读光谱仪检测高炉铁水中的Pb、Zn、Sb、Bi等微量元素。利用OBLF直读光谱所配置的生铁检测曲线,通过标准样品对曲线进行校正,对在铁水包中取得的白口化生铁样品进
目的:研究非小细胞肺癌脑转移癌调强放射治疗后脑转移癌体积变化规律,并对可能影响肿瘤体积变化的相关影响因素进行分析。材料与方法:回顾性分析2012-06-01至2015-06-01期间
本文通过田野调查和档案研究相结合的方法考察了我国中部一个国家级贫困县劳务出口的崛起过程。研究发现,地方政府与中央政府委派的扶贫小组共同制定和实施的工业化发展战略
虚拟供应链是一种现代的企业合作模式,它对于降低供应链成本、增进供应链效率和质量、提高客户满足度均有重要的意义。在分析和论述了虚拟供应链概念和特点的基础上,建立了虚
随着扶贫工作的进一步深入,传统的扶贫机制出现了越来越多的问题。政府财政支农资金是贫困地区人口减贫增收的重要渠道,如何进一步发挥财政支农资金的减贫增收效应,成为精准
EGFR 是表皮生长因子受体(epidermal growth factor receptor,EGFR)家族的成员,是利用分子遗传学方法发现的第一个细胞表面信号蛋白及原癌基因产物,具有受体分子的典型特征。
<正>高血压是常见的慢性病,也是心脑血管病最主要的危险因素,脑卒中、心肌梗死、心力衰竭及慢性肾脏病等为主要并发症[1],威胁着人类的健康和生存质量。我国高血压患病率呈逐