基于强化学习的多智能体协作策略研究与应用

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:xiaollxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的不断发展,深度强化学习已在单智能体领域取得显著的成果。然而,将其扩展至多智能体环境时,将会面临一系列新的问题,如环境的不稳定性,智能体间通讯效率低下,奖励难以合理分配等问题,这些问题将严重影响智能体之间的协作效率。因此在多智能体环境中,如何让智能体相互协作完成指定任务,其在现实生活中具有广泛的应用价值。针对上述问题,本文基于强化学习方法,在多智能体协作环境中展开研究,主要工作如下:1、针对多智能体协作环境中的局部可观问题,提出了一种基于循环神经网络的多智能体强化学习算法。该算法采用双向循环神经网络来执行Actor网络,通过网络中保存的过去环境观测信息和智能体动作信息,尽可能地增加智能体在决策时可以参考的信息,以提高其策略的有效性,减轻局部可观所带来的影响。同时加入差异奖励分配机制,以此明确各智能体对任务完成的贡献程度,鼓励智能体选择更为合适的动作输出,训练出正确的行为策略。在仿真协作任务环境与搭建的无源定位任务环境中进行了对比实验。实验结果验证了所提方法能够在任务环境复杂时,更为有效的提升算法的性能表现。2、针对多智能体环境中的信用分配问题,提出了一种基于值分解的多智能体强化学习算法。该算法采用一个值分解的集中式Critic网络来计算策略梯度,并以此更新策略网络,采用这种结构的Critic网络可以明确各智能体对系统奖励的贡献程度,并且减轻维数爆炸所带来的影响,提高算法的训练效率。在仿真任务环境中进行了对比实验,实验结果表明,所提算法在任务完成度与训练效率上均有提升。3、针对如今主流的多智能体强化学习训练框架“集中训练分布执行”所存在的问题:在训练阶段,依据全部智能体的观测数据进行训练以生成策略,但在执行阶段,每个智能体能够获取的仅仅是其局部观测,导致算法的性能表现不佳。尤其在协作任务环境中,这个问题更为凸显,据此提出了基于共享经验的通信机制。通过开辟出一定大小的存储空间,作为多智能体之间的共享经验池。并在训练与执行阶段,均允许智能体对其进行基于显式通信的并行读写操作,使智能体可以推断出整体任务环境,同时提高智能体间的协作效率。最终在仿真任务环境中对比证明了该方法的优越性。
其他文献
Boost变换器由于其主电路拓扑结构连接简单、重量轻、效率高、体积小和可靠性高等优越性得到广泛应用。Boost变换器传统建模方法忽略了器件开关特性,用小信号法得到线性化模型,并基于线性化模型利用线性控制理论(频域方法)设计变换器控制器。传统建模和控制方法存在问题是:1)线性化模型不能描述变换器的本质非线性工作状态;2)基于线性化模型和线性控制理论得到的控制器,仅在工作点附近保证性能,当系统状态大范
学位
随着无人机和视觉技术的发展,依托低慢小特征的无人机与目标跟踪的结合被广泛关注且被实际应用于城市安防、侦查缉查、区域安保等诸多领域并发挥重要作用。无人机由于自身特性飞行高度较高,造成采集的图像目标尺度较小,导致难以准确跟踪。为了解决无人机智能缉查中目标难以准确跟踪的问题,本文将基于无人机空地小目标跟踪方法展开研究,通过空地目标建立模型,从而实现空地目标检测、跟踪、控制,对感兴趣目标稳定跟踪,具体的研
学位
导弹已成为现代化国家重要的军事战略武器,弹载计算机作为导弹的控制核心,决定着导弹能否准确命中目标。因此,在导弹发射之前需要测试弹载计算机的性能、精度、稳定性。由于弹载计算机生产数量大且内部结构复杂,传统上人工测试的方法耗时、耗力并且成本高,不能满足现阶段大规模测试的要求,针对此问题本文研究一种自动测试系统完成对弹载计算机的测试。本文的具体研究内容如下:首先本文通过对弹载计算机模拟量采集系统的功能、
学位
随着无人机和计算机技术的快速发展,高质量、高精度的建筑物三维建模技术已经成为文物保护、智慧城市等领域的研究重点。尽管无人机倾斜摄影测量模型已经能够客观的、真实的反映出实景建筑物,但由于近地面和遮挡的部分影像采集的不全面,使建筑物模型立面的精细度、完整度等方面仍存在不足和缺陷,并且影像具有视角和尺度差异大的特点,存在影像匹配精度较低的问题,导致重建的建筑物三维模型质量较差,无法满足精细化的需求,因此
学位
随着自动驾驶技术的发展,车辆的智能化和无人化已成为现代汽车的趋势,但行驶过程中的安全问题始终十分关键。为了减少由恶劣道路状况所引起的交通事故,提高车辆行驶安全性及车辆操纵稳定性,本文提出了一种基于多源异构数据融合的道路状况识别方法。通过对传感器采集到的道路图像与车辆动力学数据进行预处理、多特征提取、异构数据融合及分类,实现了对不同天气情况下道路状况准确高效的识别。对此,展开了以下研究:(1)车辆动
学位
集群化是无人系统发展的必然趋势,且无人集群能量管理对集群任务规划具有至关重要的作用。但是,电动无人集群终端由于功耗约束苛刻导致其机载算力和存储容量不足,无法通过提升模型精度和算法复杂度增强其电池管理水平。本文通过在地面站中构建无人集群的电池数字孪生系统提高终端电池模型精度,借助高性能地面站在算力和存储容量方面的优势,实现对电动集群终端电池的全状态、全生命周期的集群管理。本文主要研究内容如下:首先,
学位
多目标跟踪作为机器视觉任务的主要组成部分之一,已成为当前研究热点。伴随着视觉技术的不断突破,多目标跟踪逐步应用于边境安防、军事国防、智能交通等领域且发挥巨大作用。多目标跟踪旨在对实际场景视频帧的多个目标的位置预测,并对多个目标对应的身份信息进行维持。目前虽然目标跟踪算法发展迅速,但在实际战场场景中面临诸多困难,主要分为两方面:(1)由于实际战场场景复杂多变,造成目标定位不准确严重影响跟踪的准确度;
学位
税收优惠作为政府支持企业创新的重要手段,是解决创新的外部性导致企业创新动力不足的重要激励机制。科技型中小企业是“大众创业、万众创新”的重要主体,但因资源匮乏和抗风险能力不足,更迫切地需要政府对创新活动予以扶持。为鼓励中小企业创新,我国政府近年来出台了一系列税收优惠政策。在政策力度和规模不断加大的背景下,探讨税收优惠影响科技型中小企业创新的实际效果、作用机制及其影响因素具有重要意义。本文基于政治锦标
学位
资质过剩感是员工经验水平、个人知识技能等客观条件超过岗位需求所引发的主观心理状态。当前,随着企业招聘要求的水涨船高和人力资源素质的提升,各行各业的员工普遍存在资质过剩感。激烈的就业竞争造成了一种高教育成本和低就业回报率的投资回报不对等现象。作为工作场所的重要心理特质,资质过剩感带来的影响错综复杂,尤其影响着员工的行为及绩效。有必要分析心理状态能否抑制资质过剩感的负面影响,促进其积极作用的充分发挥和
学位
“农为邦本,本固邦宁”。步入小康社会以后,国家制定了一系列政策措施推动农村农业发展,促进农村产业融合来巩固脱贫成果、提高农民收入。2018年,党中央印发的《乡村振兴战略规划(2018—2022年)》中着重提出农旅融合是实现产业兴旺的一条重要路径。陕西省拥有深厚的农业文化底蕴和类型丰富的旅游资源,为农业和旅游业的融合发展提供良好的产业基础。因此,如何在陕西省现有的资源禀赋上扎实推进农旅产业深度融合,
学位