基于重要性权重反馈的多智能体值分解方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户：lobohzs

【摘要】

：

【作者】

：

于博洋

【机构】

：

吉林大学

【出处】

：

吉林大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年多智能体强化学习的相关研究备受关注,其中值分解问题的相关研究引起了研究者的广泛重视。在多智能体值分解方法中,为提高多智能体策略的性能,环境整体的行为值函数可以表示为每个智能体值函数的组合。然而,目前的值分解方法中主要存在两方面问题:（1）值分解相关算法模型存在学习效率较低的问题,而算法的学习效率是重要性能指标,提高模型学习效率具有重要的研究价值;（2）值分解相关模型存在探索能力不足的问题,而探索能力对多智能体强化学习算法至关重要,提高模型的探索能力能够避免智能体策略陷入局部最优,从而获得性能更优的多智能体策略。基于上述问题,本文提出解决方法如下:（1）提出了基于重要性权重反馈的加速收敛机制方法:WF-QMIX（Weighted Feedback-QMIX）。算法通过引入一组动作价值函数以提高值分解方法中的学习效率。首先,算法引入重要性权重参数网络为智能体策略赋予一组动作价值重要性权重。其次,算法引入选择门结构,当赋予重要性权重的动作价值组合通过混合网络得到的整体价值更接近目标价值时,算法将原始的动作价值组合与赋予重要性权重的动作价值组合差异性减小,使模型进一步更新以加快其学习收敛速度;反之,则使两组动作价值组合差异性增大以提高模型探索能力。实验结果表明:WF-QMIX方法的模型收敛速度与最终表现均优于其它对比算法。（2）提出了基于隐变量控制的拓展探索机制方法:WFVAE（Weighted Feedback-QMIX with Variational Exploration）。算法通过引入行为模式隐变量调整智能体与环境交互的动态策略,以解决值分解方法中探索能力不足的问题。首先,该算法引入行为模式隐变量并将其与智能体动态策略进行关联。其次,该算法通过改变行为模式隐变量实现智能体与环境交互策略的动态调整,从而拓展模型的探索空间,进一步提高模型的探索能力。实验结果表明,WFVAE方法的表现效果优于其它对比算法。

其他文献

考虑心电个体差异性的驾驶疲劳辨识方法研究

驾驶疲劳是造成道路交通事故的主要原因之一,与其他交通事故致因相比,驾驶疲劳更容易导致死亡或重伤,其具有个体表征多样化和疲劳特征隐匿性强的特点,研究驾驶人在途疲劳状态辨识对改善道路交通安全具有重大意义。由于不同驾驶人间存在个体差异性,导致驾驶疲劳共性特征不明确,现有疲劳辨识算法无法满足疲劳辨识的高前瞻性要求,如何正确处理驾驶人疲劳特征的个体差异,已成为目前驾驶疲劳研究中的关键问题。因此,本文立足于该

学位

基于深度强化学习的商用车编队控制方法研究

随着我国社会经济的不断发展,汽车保有量不断增加,随之带来的燃油消耗、道路拥堵和交通安全等问题也日趋严重。商用车作为目前货物运输的主要途径,截至2021年1月我国商用车货运规模占总货运规模的74.4%,同时载货商用车燃油消耗占总燃油消耗量比例超过50%,且仍有上升趋势。因此如何提高商用车的行驶安全性及燃油经济性具有重要意义。随着通信技术、控制方法和传感等技术的不断发展,先进的商用车编队控制方法被证明

学位

含三苯基亚胺磷基团A2B型咔咯钴配合物的合成与电催化析氢研究

随着不可再生的化学燃料能源的不断消耗,寻找绿色、可持续与经济的新能源就成了当代能源化学的重要课题。氢气正是一种优异的洁净能源。而电解水制取氢气（HER）是一种简便的电能存储方法。电解水制氢需要催化剂来促进电解水反应的进行。目前一些稀有金属基催化剂表现出良好的电催化性能,但是由于成本高限制了其广泛使用。于是人们试图开发便宜的过渡金属基电产氢催化剂来替代贵金属基催化剂。铜、铁、钴、镍等过渡金属基催化剂

学位

电化学合成多取代吡咯及噻唑类化合物的研究

多取代吡咯和噻唑类化合物具有抗病毒、抗炎、抗肿瘤活性,本身可作为药物使用,亦作为药物合成的中间体,在药物、农药领域有广泛的用途。迄今为止,尽管这两类化合物的合成研究已有很多文献报道,但电化学方法合成这两类化合物的研究工作非常有限,发展绿色有效的电化学合成这两类化合物仍然是非常意义的。鉴于此,本论文着眼于研究电化学合成方法,合成这两类重要化合物。（1）以β-二羰基化合物、醛和胺底物合成多取代吡咯化合

学位

基于博弈论的智能网联自动驾驶车辆换道行为研究

车辆安全驾驶一直是交通领域重要的研究课题,自动驾驶车辆由于减少驾驶员的参与,可以避免大部分由人为因素造成的交通事故,提高驾驶安全和驾驶效率。在驾驶行为研究中,车辆跟驰行为和换道行为是最常见也是最基本的两种驾驶方式,有调查显示由于不合理换道引起的事故占比较高,而智能网联自动驾驶车辆换道行为研究有助于避免该问题的产生。结合国家科技部项目“车车耦合机理与协同安全方法”（项目编号:2018YFB16005

学位

镍、铜、锌、铁、钯配合物的合成与催化氢气生成及氧化性能的研究

由于人们对气候问题越来越关注,迫切希望能够减少化石燃料的使用,以降低二氧化碳排放量,多年来,人类一直在寻找更清洁、可持续的燃料。在众多可再生能源中,氢能以其高热值、无污染一直备受关注,尤其是现在,氢能将迎来前所未有的发展空间。考虑到氢化酶能够在温和的条件下高效地完成氢气生成和氧化,为此我们选题为:镍、铜、锌、铁、钯配合物的合成与催化氢气生成及氧化性能的研究。本文主要研究内容如下:1、设计并合成了6

学位

面向符号网络分析的表示学习方法研究

符号网络是大数据时代的一种数据表现形式,由节点、节点间正负链接组成。符号网络中的任务在现实生活中有非常广泛的应用,如链接预测、社区发现、节点分类等。但符号网络的节点和链接需要高维向量表示,导致模型计算复杂的问题。表示学习是一种非常有效的学习节点嵌入方法,通过保留网络中拓扑结构、顶点内容和其它辅助信息,将网络顶点嵌入到低维向量空间中。所以用表示学习方法可以将符号网络任务中所需的信息提取出来,用低维向

学位

基于鲁棒图神经网络与多组学数据整合的癌症亚型分类研究

精准识别癌症患者的分子亚型对癌症的个体化治疗、靶向药物研发和预后分析具有重要意义。大规模多组学数据和基于数据驱动的方法能够促进对癌症分子分型的理解和预测。现有大多数基于机器学习的方法通常依赖于单一组学数据,而未能整合多组学数据为分子分型提供更全面的信息。一些基于神经网络的方法,考虑了分子分型的复杂非线性,但忽略了基因特征筛选和样本之间的关系。图神经网络能够利用样本相似性图中样本之间的信息传递和聚合

学位

远程监督下层次关系抽取方法研究

关系抽取指从非结构化文本中抽取出实体间的关系,是自然语言处理中重要的研究方向。在深度学习时代,监督学习下的关系抽取模型已经取得很高的准确度,但其要求大量带标注的训练语料,然而在现实世界中关系种类繁多,文本数据复杂,提供大量的带标签的训练数据需要耗费巨大的人力。针对以上问题,远程监督的思想被提出,它基于一个假设,如果知识库中存在两个实体表达了某种特定关系,那么语料中所有含有这两个实体的句子都表达了这

学位

牡丹皮多糖的结构表征、抗炎活性评价及其与大豆分离蛋白互作规律研究

牡丹皮,又称丹皮,是毛茛科植物牡丹Paeonia suffruticosa Andr.的干燥根皮,广泛应用于中药名方。现代药理学研究表明,牡丹皮具有调节血糖、缓解糖尿病并发症、抗炎等多种药理作用。多糖作为一种水溶性大分子,其在传统中药水煎液中占据很大的比例。研究报道,多糖具有多种生物活性,如免疫调节作用、调节肠道菌群、抗炎、抗肿瘤、抗氧化应激等。多糖也是牡丹皮的主要活性成分之一,目前对于牡丹皮多糖

学位

基于重要性权重反馈的多智能体值分解方法

与本文相关的学术论文