基于多智能体强化学习的博弈及合作研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:oyphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络和强化学习的结合在近些年受到了越来越多的关注,而且对单智能体的强化学习的关注正在慢慢转移到多智能体上。多智能体强化学习需要解决环境的不稳定性、奖励分配、部分可观测、计算复杂度等问题,多智能体下的强化学习天然的比单智能体复杂。因为多智能体的强化学习的应用场景更加广泛,更贴近现实世界的情境。所以多智能体强化学习更加具有研究价值和意义。本文将博弈论中的遗憾最小化引入到多智能体强化学习,提出了基于遗憾最小化的多智能体强化学习算法。遗憾最小化是博弈论中一种新的概念,在一些纳什均衡不是最优解的博弈问题上,遗憾最小化有着更好的表现。传统的多智能体强化学习最终的解在大部分情况下是符合纳什均衡的,当纳什均衡本身不是最优解时,这些算法难以发挥作用。基于遗憾最小化的多智能体强化学习最终的解是遗憾最小化的,所以在上述场景下有着更好的表现。本文首先将遗憾最小化引入到非深度的多智能体强化学习中,提出了多智能体遗憾最小化算法。并重新定义了基于遗憾最小化的Q函数和V函数、Q值的更新公式。然后在多个实验中和求解纳什均衡的多智能体算法进行了对比,结果表明本文提出的算法在一些纳什均衡无法很好解决的问题上有着更好的表现。最后引入了神经网络,提出了多智能体深度遗憾最小化算法,并可用于解决完全可观测环境下的问题。本文证明了Q-learning在多智能体深度学习下存在过高估计问题,同时为了将遗憾最小化推广到部分可观测的环境中,本文简化了遗憾值的定义,证明了新的遗憾值的定义避免了过高估计问题,并提出了值分解遗憾最小化算法。实验证明值分解遗憾最小化相比传统的值分解算法性能得到了提升。同时为了加快算法的训练速度,本文将单智能体下优势函数引入进来,推导出了优势函数形式下的值分解遗憾最小化算法,并实验验证了优势函数的加速效果。
其他文献
柑橘作为我国重要的经济作物之一,在其种植过程中易受到其种植地的气候、地理环境及病菌等影响而萌生各类病虫害,且常发于其叶片部位,故针对柑橘叶片变化进行病虫害的判定是病害防治行之有效的方法之一。同时由于柑橘病虫害具有类间差异小、类内差异大的特点,田间目视解译容易发生误识别,且果园地处偏僻,发生病害时专家无法及时到场给予技术支持,容易耽误果树的最佳诊疗时间。由于深度学习的迅速发展,将其应用于农作物病害识
学位
背景:青少年特发性脊柱侧凸是最常见的脊柱侧凸畸形,占所有脊柱侧凸的80%左右,其发病机制不明,近年来发病率呈明显上升趋势,严重威胁着青少年的身心健康。目的:通过文献计量学方法对近20年来青少年特发性脊柱侧凸的相关文献进行可视化分析,探索该领域的研究热点与趋势,以期为进一步研究提供参考。方法:计算机检索Web of Science核心合集数据库2002-01-01/2021-12-31收录的相关文献
期刊
随着科学技术的发展,多旋翼无人机的用途早已不再是作为一种娱乐工具而存在,因其具有快速机动,成本低廉等众多优点,在商业、农业、工业、服务业等领域中已有广泛应用。随着“多旋翼+设备”概念的提出和不断深化,仅仅对多旋翼本身的研究已经不能满足新应用或新需求对技术要求,势必需要不断对技术的革新,才能适应该领域的发展需要。本文以“多旋翼+负载”作为研究方向,以四旋翼飞行器为载体,针对在运输飞行过程中,负载会产
学位
随着信息技术的发展,越来越多的用户加入互联网并发布海量的自创数据,这些用户自创的数据中大多包含了用户的个人情感信息。如何从海量数据中提取出情感信息并加以利用,便是自然语言处理领域的子任务-情感分析的主要研究内容。情感分析任务对于舆情监控、商品推荐、销售决策等领域都有着重要的作用。然而,一个好的深度情感分类模型往往需要大量的带标签样本。而新领域层出不穷,若仅靠人工标注则成本过高,若直接应用现有的分类
学位
装配式钢结构建筑具有工业化程度高,施工周期短、劳动生产率高,抗震性能优越,建筑可利用空间大等优势。在传统装配式钢结构建筑中多采用梁柱栓焊节点,在地震灾害中发现梁柱栓焊节点的梁下翼缘和柱翼缘焊接部位易发生脆性断裂,为提高结构质量,学术界提出了塑性铰外移的节点,将节点的脆性破坏转化为梁的延性破坏,带悬臂梁段梁柱连接节点是实现塑性铰外移的节点形式之一。为提高施工速度、改善结构节点质量,提高节点受力性能,
学位
多智能体系统是一种由环境中进行交互的多个智能体组成的分布式计算系统,可用于解决机器人系统、分布式决策、商业管理和交通控制等各种领域的问题。多智能体强化学习是多智能体系统研究领域中的一个重要分支,它将强化学习、博弈论等理论应用到多智能体系统中,使多个智能体能在动态、高维环境中通过交互、决策完成各种任务。然而,多智能体强化学习算法通常面临几个核心问题:(1)难以在对未知环境进行探索和对现有经验进行利用
学位
随着计算机技术的发展和广泛应用,许多领域的专家学者进入计算社会学,将现代科学技术应用于各种数据的研究中,旨在获得解释人类活动、解决社会问题的新思路、新方法,计算社会学由此获得蓬勃发展。科研活动作为推动社会进步的重要部分,获得了广泛的关注。通过计算机技术、复杂网络理论研究科研活动数据是科学学的重要研究方法。本文选择美国物理学会公开提供的APS数据集的部分数据,包括从1958年到2015年期间6个期刊
学位
人脑作为人类处理各种事务的运行中枢,拥有对现实场景实时反应的能力和高效处理复杂问题的能力。类脑计算希望能够参照生物的大脑结构和神经形态,探索不同且更为智能高效的信息处理模式、大规模计算架构和芯片设计方法等。Spiking神经网络(SNN)作为类脑计算的研究分支,拥有不同于传统人工神经网络的显著特点,那就是它能够处理复杂的时空信息,并且具有低延时、低功率、低复杂度的特性。STDP学习规则是SNN中的
学位
基于可恢复功能的抗震设防理念,建筑结构在震后不但要实现损伤可控,更要实现损伤构件的快速可更换,进而对建筑物的使用功能进行快速修复。已有钢节点的研究中,结构的耗能多以板件屈服的延性耗能为主,耗能机制较为单一,且在大变形条件下,结构的主体构件往往因产生较大的塑性变形而丧失使用功能,为了改进结构以延性耗能为主的耗能机制,同时降低构件的损伤和残余变形,提高结构在大变形条件和低损伤状态下的非弹性转动能力,本
学位
为解决掘锚一体化快速掘进工作面围岩的有效支护问题,以黄陵矿2号井综采面运输巷为工程背景,在现场调研巷道掘进技术现状的基础上,提出分区平行锚固思路;采用数值模拟、工程实践的方法对掘进工作面分区平行锚固技术进行系统研究。数值模拟研究表明,掘进过程中巷道围岩应力重新分布,在工作面前方约3 m处出现应力峰值,成巷初期在工作面附近2 m范围内巷道浅部岩层仍处于三向应力状态,围岩变形及破坏幅度较小,在工作面后
期刊