基于信息熵的多智能体强化学习算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:flyrain_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统是一种由环境中进行交互的多个智能体组成的分布式计算系统,可用于解决机器人系统、分布式决策、商业管理和交通控制等各种领域的问题。多智能体强化学习是多智能体系统研究领域中的一个重要分支,它将强化学习、博弈论等理论应用到多智能体系统中,使多个智能体能在动态、高维环境中通过交互、决策完成各种任务。然而,多智能体强化学习算法通常面临几个核心问题:(1)难以在对未知环境进行探索和对现有经验进行利用之间寻找平衡;(2)在部分可观测环境中缺乏对空间的有效探索;(3)难以应对动态高维环境的不稳定性等。针对上述问题,本文结合现有深度强化学习算法,在多智能体协同控制场景中进行了相应的研究,并在基于暴雪公司《星际争霸Ⅱ》基础上开发的SMAC虚拟仿真环境中进行多智能体协同控制场景仿真实验,实验采用基于值分解技术的Qmix算法作为基线算法,主要研究内容如下:(1)提出了一种基于Mello Max算子的多智能体强化学习算法。针对全局可观测环境,该算法利用基于Mellow Max算子的Soft Max策略替代传统强化学习算法中的ε-greedy或玻尔兹曼Soft Max策略,提高了算法对复杂、高维环境空间的探索能力。与基线Qmix算法进行对比仿真实验,结果验证了算法的高效性。(2)提出了一种基于信息熵理论最大熵方法和自注意力机制的多智能体强化学习算法。针对部分可观测环境,该算法基于最大熵方法,通过对强化学习算法目标的调整,加入最大熵优化目标,提高了算法的探索能力以及适应环境波动变化的鲁棒性;结合自注意力机制,将智能体观测得到的信息加以高效利用,增强了算法对局部观测信息的利用效率,最终提出了一种新的多智能体强化学习算法SAMQmix,由上述两点所提出的算法整合而来,在SMAC环境中与基线Qmix算法进行了对比,并进一步做了相应的消融实验,实验结果表明,SAM-Qmix算法相较基线Qmix算法而言,能更好的学习到智能体行动的最佳策略,并具备更强的鲁棒性。
其他文献
本文论述了导电密封材料的制备方法、导电机理、电磁屏蔽性能和应用。
会议
气体源定位传统方法通常是基于气体扩散模型,结合概率估计理论设计的。但在实际监测环境中,由于气体扩散通常受到随机湍流气流的影响,很难给出准确的气体扩散模型。为了便于气体源的快速定位,可以对泄漏气体进行识别。气体识别传统方法主要基于气体稳定特征或最大响应,识别时间较长。并且气体识别传统方法高度依赖气体传感器响应差异,而低浓度气体响应小,因此难以识别。针对以上不足,本文首先提出了一种低浓度气体的快速识别
学位
海水入侵是指沿海地区由于自然或人为因素导致淡水与海水之间的自然平衡被打破,从而引起淡水-海水界面向内陆移动的现象。海水入侵会造成地下水无法饮用,并造成机井破坏、土地盐渍化、农业减产等诸多问题,从而影响沿海地区社会经济的发展以及当地居民正常生活。本文选择我国北方某沿海地区为研究区,对其开展海水入侵现状、海水入侵动态变化规律以及海水入侵防治的地下水回灌措施三个方面的研究,以期为研究区及我国其他沿海地区
学位
目的 探究青少年特发性脊柱侧凸(adolescent idiopathic scoliosis, AIS)患者躯干冠状面参数与脊柱侧凸Cobb角之间的关系,希望为脊柱侧凸的早期筛查和保守治疗的监测提供一定帮助。方法 选取徐州市康复医院康复工程部收治的青少年特发性脊柱单侧胸右或腰左“C”型弯患者43例,其中胸右弯患者20例,腰左弯患者23例。主要测量数据有脊柱全长X片上的Cobb角和身体外观上椎体棘
期刊
每年因外伤、肿瘤造成的骨折和骨缺损患者高达数千万,传统的金属医用材料存在弹性模量高和需二次手术取出等诸多缺点。近年来,研发新型高性能可降解的金属医用材料已成为医学研究领域的热点问题。镁及镁合金具有良好的力学性能,与人体生物相容性好,且在人体内具有可生物降解等优良特性,是一种十分具有潜力的医用植入材料。然而,镁合金在人体生理环境中的腐蚀速率过快,且耐磨蚀性能较差,限制了其应用范围。基于此,本文采用微
学位
柑橘作为我国重要的经济作物之一,在其种植过程中易受到其种植地的气候、地理环境及病菌等影响而萌生各类病虫害,且常发于其叶片部位,故针对柑橘叶片变化进行病虫害的判定是病害防治行之有效的方法之一。同时由于柑橘病虫害具有类间差异小、类内差异大的特点,田间目视解译容易发生误识别,且果园地处偏僻,发生病害时专家无法及时到场给予技术支持,容易耽误果树的最佳诊疗时间。由于深度学习的迅速发展,将其应用于农作物病害识
学位
背景:青少年特发性脊柱侧凸是最常见的脊柱侧凸畸形,占所有脊柱侧凸的80%左右,其发病机制不明,近年来发病率呈明显上升趋势,严重威胁着青少年的身心健康。目的:通过文献计量学方法对近20年来青少年特发性脊柱侧凸的相关文献进行可视化分析,探索该领域的研究热点与趋势,以期为进一步研究提供参考。方法:计算机检索Web of Science核心合集数据库2002-01-01/2021-12-31收录的相关文献
期刊
随着科学技术的发展,多旋翼无人机的用途早已不再是作为一种娱乐工具而存在,因其具有快速机动,成本低廉等众多优点,在商业、农业、工业、服务业等领域中已有广泛应用。随着“多旋翼+设备”概念的提出和不断深化,仅仅对多旋翼本身的研究已经不能满足新应用或新需求对技术要求,势必需要不断对技术的革新,才能适应该领域的发展需要。本文以“多旋翼+负载”作为研究方向,以四旋翼飞行器为载体,针对在运输飞行过程中,负载会产
学位
随着信息技术的发展,越来越多的用户加入互联网并发布海量的自创数据,这些用户自创的数据中大多包含了用户的个人情感信息。如何从海量数据中提取出情感信息并加以利用,便是自然语言处理领域的子任务-情感分析的主要研究内容。情感分析任务对于舆情监控、商品推荐、销售决策等领域都有着重要的作用。然而,一个好的深度情感分类模型往往需要大量的带标签样本。而新领域层出不穷,若仅靠人工标注则成本过高,若直接应用现有的分类
学位
装配式钢结构建筑具有工业化程度高,施工周期短、劳动生产率高,抗震性能优越,建筑可利用空间大等优势。在传统装配式钢结构建筑中多采用梁柱栓焊节点,在地震灾害中发现梁柱栓焊节点的梁下翼缘和柱翼缘焊接部位易发生脆性断裂,为提高结构质量,学术界提出了塑性铰外移的节点,将节点的脆性破坏转化为梁的延性破坏,带悬臂梁段梁柱连接节点是实现塑性铰外移的节点形式之一。为提高施工速度、改善结构节点质量,提高节点受力性能,
学位