面向稀疏交互的多智能体深度强化学习研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:suzhixie66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模的多智能体系统中,庞大的智能体数量以及复杂的交互关系对智能体的策略学习造成了较大的挑战。因此,对智能体策略学习过程的简化是一项非常重要的研究课题。当前,传统的多智能体深度强化学习方法主要关注于紧耦合的场景,即智能体之间是紧交互的。然而在现实生活中,多智能体系统中的交互关系往往是稀疏的,这也就意味着智能体不需要在每一个时刻都进行交互,也不需要在每个时刻同所有的智能体交互。利用智能体交互的稀疏性可以大大的简化策略学习的进程。针对该问题,传统的方法使用预定义的度量方法或规则去定义交互的状态和交互关系,但这些方法很难直接应用于大规模的多智能体系统中。因此,本文主要对大规模多智能体系统中的稀疏交互进行研究,针对时间上的稀疏性和空间上的稀疏性,分别提出了基于时间稀疏性的知识迁移方法以及基于空间稀疏性的博弈约简算法。同时,将相关方法应用于电磁频谱对抗场景中,设计了基于深度强化学习的电磁频谱对抗仿真系统,实现理论与实践的结合。其主要贡献可以归纳如下:1.基于对多智能体系统中时间稀疏性的思考,提出了一种新的马尔科夫决策过程(MDP)相似性度量方法,用于识别多智能体系统中智能体的交互区域,并基于该度量方法提出了新的策略迁移算法。具体的,传统的基于Bisimulation度量方法计算复杂,针对此问题本文引入N步回报的概念用于表示环境的局部动态特性,并基于N步回报提出了两种新的迁移方法。其中,直接的值函数迁移方法在目标任务中直接复用源任务中的值函数,然而该方法容易造成负迁移。基于N步回报的迁移方法通过对MDP进行度量,可以有效地避免负迁移,实现选择性迁移,进一步提升算法的学习性能。最终,在多种游戏场景中的实验表明,基于N步回报的方法不仅能够获得最优的策略,同时大大提升了算法的学习效率。2.基于对多智能体系统中空间稀疏性的思考,提出了一种新的基于两阶段注意力机制的博弈约简方法,将硬注意力机制与软注意力机制进行结合,对智能体之间的交互关系进行建模。具体的,利用硬注意力机制获得每一个智能体需要与哪些智能体进行交互,从而将多余的智能体从博弈中直接约简,简化策略学习的过程,更好地应用于大规模的多智能体系统。同时,利用软注意力机制对存在交互关系的智能体之间的关系权重进行学习,进一步过滤不相关的信息,优化策略的学习进程。此外,对于每一个智能体,通过图神经网络获取来自其他智能体的贡献信息,即实现智能体之间的通信或协商。基于此,提出了两种新的多智能体策略学习算法:基于通信的方法GA-Comm和基于协作的方法GA-AC。最终在交通路口和追捕场景中验证了算法的有效性。3.基于对多智能体系统中交互在时间、空间上稀疏性的思考,将以上两种算法应用于大规模电磁频谱对抗场景中,设计并实现了基于强化学习的电磁频谱对抗仿真系统。从而降低使用强化学习进行系统开发的学习成本和研究成本,进一步加速人工智能的落地。并通过任务复盘等功能对策略进行评估、解释并优化,以满足该场景特殊需求。
其他文献
随着计算机技术的不断进步和各行业智能化发展的需求,计算机视觉近年来已成为人工智能领域中重要的研究课题之一。计算机视觉具有广泛的实际应用,在工业、农业、医学、军事等领域有着不可或缺的地位。本文重点关注稀疏模型在计算机视觉中的应用,构建了基于稀疏模型的计算机视觉应用体验平台。在系统的设计和实现过程中,本文完成的主要工作包括:第一、介绍了计算机视觉的发展和现状,描述了稀疏模型在计算机视觉中的实际应用意义
近年来GNSS技术快速发展,以高精度、全天候、高效且经济效益高的GNSS三维测量替代传统测量已呈迅速上升的趋势。GNSS定位测量所得为大地高,而我国在实际工程应用中所使用为以似大地水准面为基准面的正常高,将大地高转换为正常高成为大地测量领域的研究热点与难点。通过GNSS测量获取测点正常高的高程转换方法有许多,其中先以GNSS水准拟合得到区域似大地水准面,再以GNSS定位技术快速获取地面点平面坐标,
随着全球经济进入“大调整”时期,经济下行风险和不确定性陡然上升,高级管理人才对企业战略发展的重要性愈发凸显。而科学的激励机制是企业可持续发展的重要保障,更是高管人员不流失的企业焕发内生动力的重要保证。目前,我国能够开展工程承包业务的规模以上企业有200余家,业务涵盖了国际国内单一分包及一体化总承包。XX国际工程公司身为大型跨国工程公司,通过近35年的发展,现在已成为一家拥有众多子公司的大型跨国工程
在经典粗糙集理论中,下(上)近似算子事实上是拓扑内部(闭包)算子。下(上)近似算子的这一性质允许一些学者去研究粗糙集的拓扑结构。近来又有许多基于模糊覆盖的粗糙集模型被提出,这些模型都是粗糙集模型的推广。然而对这些新模型的性质的研究却极少从拓扑的角度展开。基于马利文所提出的β覆盖的想法,我们介绍了β拓扑的概念,并以此作为一种研究基于模糊覆盖的粗糙集模型的理论工具。此外,我们还提出一个新的基于模糊覆盖
无线车载自组织网络(Wireless Vehicular Ad-hoc Network,VANET)由车辆节点组成,节点间以相互协作的方式建立网络,能够实时感知周围交通环境并进行实时交互,通过预防事故的发生来提高道路的安全性。由于与安全应用有关的数据需要被周围所有的车辆接收,因此诸如事故等安全类消息将以广播的方式进行传输,所以VANET中的节点通过定期广播信标消息来感知周围环境。媒体接入控制(Me
近年来企业越来越意识到员工工作满意度不仅与企业本身的稳定和发展有关,也关系到员工自身的稳定,同时会影响他们在生活和工作中的积极性和乐观性。因此,如何有效提高员工工
互联网时代,海量数据产生于生活的方方面面。以网络表达个体与个体间联系,是数据呈现的一种重要方式,诸如社交网络、引用网络和通信网络等。对这些网络进行分析有助于深入了解社会结构、信息传播和沟通方式。已经有许多方法被应用于提取网络信息,但高维稀疏的表达方式会导致高计算量和高存储量。因此,如何高效表达网络信息、精准刻画节点特征,具有很高的研究价值和广阔的应用前景。近年来,越来越多的科学研究应用深度学习和非
本文梳理了2006以来云南省各地州市企业在缅甸、老挝北部等地区开展罂粟替代种植项目及发展替代经济产业过程中,中国政府给予的政策补贴的经济效益及社会效益的综合评价。对此类问题的研究,一方面可以扩展罂粟替代种植业政府补贴政策绩效研究的视角和内容,另一方面能为其政策本身调整优化提供参考建议。基于经济绩效和社会绩效的视角,运用SE-SBM-DEA模型通过deap软件测算2014-2018年云南省各地市发展
我国河流众多、径流丰沛、落差巨大,蕴藏着非常丰富的水电资源。其陆地水力资源理论蕴藏量在10MW及以上的河流共有3886条,分别建有共9.8万余座水坝,在提供清洁能源同时,还对防洪、供水、灌溉起重要作用。于上个世纪80年代以前建设的老坝基本上为土石坝,出险的几率较高。目前,我国200米级以上高坝主要集中在西部地区,高海拔、高地震烈度、高边坡、地质条件极为复杂,需要对大坝的安全监测进行研究。由于大坝的
中国是世界钢铁材料第一生产大国,改革开放以来,伴随着重点产业中低端产能的大规模扩张,逐渐显现出产能过剩的问题,钢铁行业尤为突出;2008年的金融海啸让钢铁行业受到不小冲击,随着环境不断变化,中国钢铁行业也浮现出诸多问题,如何让中国这一“钢铁生产大国”变为“钢铁强国”是中国企业家们应共同追寻和努力的目标;近几年来经济增长的“三驾马车”作用逐渐消失,整个市场环境复杂多变,中国进入增速放缓、结构调整、技