基于强化学习的多智能体协同对抗算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wston
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统(MAS)是指由多个可以与环境进行交互的智能体所组成的计算机化系统。由于深度强化学习具备极强的探索以及决策能力,深度强化学习技术成为多智能体系统智能决策的主流方法。随着人工智能技术的不断发展,多智能体强化学习得到了广泛的应用,其中协同对抗问题具备极强的研究价值。对多智能体协同对抗问题的深度强化学习研究旨在通过智能体编队与环境的交互求得达成目标的最优策略。多智能体协同对抗环境的推演受到所有智能体动作执行的影响,由于智能体数量庞大并且存在不受己方控制的智能体,所以环境复杂动态且不稳定。并且由于多智能体系统的复杂性随智能体数量的增加而增加,会产生庞大的探索空间,并且在其基础上策略是动态改变的,这使得经验回放样本效率低下。上述问题严重影响了深度强化学习算法在MAS上的性能表现。本文对多智能体强化学习的历史发展进行回顾,并结合现有工作进行研究,本文的主要研究内容包括以下两部分:(1)针对复杂动态且不稳定的环境问题,提出了基于未知智能体行为预测的多智能体协同对抗算法。该算法主体采用值分解网络构造,融合监督学习与强化学习,创新性的加入未知智能体行为预测模块。未知智能体行为预测模块基于未知智能体的历史特征与执行动作,构建并训练监督辅助模型预测未知智能体的动作,值分解网络将预测模块的输出融合环境状态信息进行智能决策。实验证明该算法在SMAC星际争霸II环境与Ma CA编队对抗环境上的表现都优于当前主流的基线算法。(2)针对多智能体经验回放样本效率低下问题,提出了面向鲁棒性的多智能体强化学习经验回放多层构造方法。该方法对经验回放进行三级构造,首先通过蓄水池算法改进了经验回放缓冲池的存储方法,其次通过相似度度量筛选方法筛选出了利于鼓励探索的样本集合,最后在该集合基础上进行基于策略变化的重要性采样,提高了样本的稳定性和可信度。实验证明该方法在SMAC环境以及MaCA环境上都具备良好的效能。
其他文献
虚拟电感电流(Virtual Inductor Current,VIC)补偿的纹波控制方式在使用陶瓷电容的Buck变换器芯片中得到了广泛的应用。VIC补偿是为了解决低等效串联电阻引起的次谐振荡的问题。然而,在瞬态响应中,VIC带来的低频欠阻尼振荡恶化了动态性能。以往的研究基于线性VIC斜率的假设,建立的模型不能预测低频欠阻尼振荡。此外,现有的模型难以拓展到其它类型的VIC。因此,本文建立了VIC补
血压测量是常用的心血管健康监测手段,其对于高血压的预防和治疗重要作用。利用光电容脉搏波描记法技术,可以从人体体表获取脉搏波信号,这种脉搏波信号可用于人体血压测量。由于面部视频的复杂性,从人脸视频中所获取的脉搏波质量不佳。当前主要利用相关硬件采集指端脉搏波信号,并采用复杂的特征工程提取波形特征,基于此建立血压模型。这种方法所建立的血压模型在现实使用中普遍存在模型泛化能力不强,适用性较差的问题。本文对
码头作为水路运输中重要的港口设施,随着社会经济的不断发展,码头工程已成为我们国家的基本建设项目。码头建设工程由于特殊的施工环境,具有一定的施工难度及风险性,安全问题突出已引起国家和社会有关部门高度关注。因此,开展码头建设施工安全风险评价,加强码头施工项目安全风险的预防对策,进行有效的施工安全风险管理,避免施工过程中发生事故,具有十分重要的社会实践意义。本文以T企业码头改建项目为研究对象,项目主要将
政府投资项目,兼有公用与公共利益的基本特征,对优化基建体系、加速供给侧改革、推动经济建设等具备关键价值。此类项目的优质发展,要有高效与精准的管理,而管理水平的提升与风险管理密切相关,关键点即业主方的项目风险管理。因此,政府投资项目业主方的风险管理水平日益受到社会各界的高度关注和潜在担忧。中国的政府投资项目,综合规模与复杂水平持续提升,随之产生的风险也日益升高。政府投资项目的发起者及最终责任者都是业
学位
当前,H市海绵城市建设和老旧小区综合改造提升两项工作正如火如荼进行。本文以H市老旧小区海绵化改造项目为研究对象,以其改造全过程中的方案设计阶段为切入点,结合该阶段的改造设计内容、技术应用特征以及评价特征等内容,从设计方案评审组织者的角度,围绕设计方案评价指标的设计及评价模型的构建等问题进行深入研究,实现此类项目设计方案科学评价。1)H市老旧小区海绵化改造设计方案评价指标研究。首先通过文献研究和项目
根据《中国发展报告2020:中国人口老龄化的发展趋势和政策》的预测,到了2022年我国65岁以上的人口数量将占到总人口的14%,这表明我国的社会形式已经开始逐步迈入老龄化社会。面对人口老龄化问题,我国提出了“健康养老”的战略需求,目的是为了科学、高效、合理的应对人口老龄化问题。人口老龄化带来了健康养老的巨大需求,越来越多的公司和企业开始投身于健康养老领域,推出了众多的健康养老产品来为老年人提供服务
学位
随着互联网广告的发展,广告营销成为了互联网公司的重要变现手段,广告数据分析处理的研究也因此引起了广泛关注。论文以短视频平台广告业务数据为基础,设计并实现了可视化分析的数据报表系统。短视频平台广告数据相比于传统网站具有数据量更大、数据处理时效性要求更高等特点,如何对其存储并实时计算得到关键性指标是本文研究的重点。传统数据库无法有效存储处理海量历史数据,而Hive、Spark等大数据平台无法做到数据实
近年来,随着人类社会积累的数据量不断增加,传统数据处理方法逐渐表现出一些瓶颈和限制。自从Map Reduce论文奠定了大数据处理的思想基础后,开源社区推出了一系列大数据处理框架,比如Spark、Flink等等。这些框架所生成的大数据作业可以抽象成一张有向无环图(Directed Acyclic Graph,DAG)。特别地,大数据作业往往具有较高的复杂性,并且负责执行作业的集群越来越呈现异构化趋势