基于深度强化学习的多智能体协同对抗方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：xiyufeike

【摘要】

：

【作者】

：

杜川

【出处】

：

西安电子科技大学

【发表日期】

：

2021年05期

【关键词】

：

多智能体深度强化学习环境感知运动规划决策对抗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习作为一种新型的人工智能技术,近些年来获得了飞速的发展。深度强化学习应用于多智能体博弈场景下时,不仅强化学习环境稳定性的条件被打破,而且多个智能体之间的合作和竞争关系、多智能体协同与对抗状态下的环境感知、运动规划、博弈决策日益成为研究的重点。本课题针对以上痛点,给出了一套从环境感知、运动规划到决策对抗的完整解决方案。本文将多智能体的协同对抗方案分为环境感知、运动规划、决策对抗三大模块,针对每个模块,各提出了相应的算法和实现,具体为:基于点云匹配的环境感知算法,基于深度强化学习的运动规划算法以及模仿学习与强化学习融合的多智能体决策对抗算法。首先,点云匹配的环境感知算法可以获取障碍物信息以及其余智能体的全局坐标,为导航和决策提供感知功能,之后基于深度强化学习的运动规划算法为各个智能体提供避障与导航的能力,最后,借助模仿学习与强化学习融合的多智能体协同对抗决策算法,为多智能体混合博弈提供最优解。本文的主要工作和贡献如下:1本文提出了一种基于点云匹配的多目标检测与定位优化算法。该算法首先基于雷达初始位置信息获取环境地图下的虚拟雷达点云集。之后将虚拟点云集与实体激光雷达点云集进行匹配来修正实体激光雷达的定位,再将虚拟雷达点云与实体激光雷达点云匹配做差,得到其余智能体的位置信息。最后将模型部署在ROS环境下实现工程化应用。实验结果表明:所提出的基于点云匹配的多目标检测与定位优化算法不仅能够实现博弈环境下多目标的位置检测,而且可以优化智能体自身的定位,满足实时性和稳定性的要求。2为了满足智能体导航和避障的需求,提出了一种基于深度强化学习的端对端运动规划算法。以智能体的激光雷达原始点云和定位信息作为网络的输入,以智能体的运动速度作为输出,激光雷达的点云信息首先通过卷积网络进行特征提取,之后再与导航目的地等高维特征融合送入后续网络中处理,将导航目的地作为高维度特征,以门控信号的方式输入网络中,以突出高维度特征在导航中的决定性作用。首先以全向移动的机器人作为模型,在ROS平台下调用Tensorflow进行网络的训练,之后将训练好的网络部署到实车上,实验表明,所提出的网络模型,在仿真环境和真实环境下,都实现了点对点的导航。与ROS环境下Move Base导航包中的算法相比,控制频率以及导航的连续性都获得了较大的提升。3多智能体混合博弈决策领域,针对MADDPG算法从零开始训练多个智能体收敛困难;奖励函数设计没有依据可循的问题,提出了一种生成对抗模仿的多智能体混合博弈决策算法:GAIL-MADDPG。智能体首先在专家策略的基础上进行模仿学习,习得基本技能以后再进行强化,加快了算法的收敛速度;同时,生成对抗网络的判别器为智能体提供了奖励函数的原型,可以解决MADDPG算法手工设计多个智能体的奖励函数无据可循的问题,最后以Robomaster2019人工智能体挑战赛为平台,部署算法进行了验证,与MADDPG算法对比,本文提出的GAIL-MADDPG算法基于专家策略进行学习的方式,不仅不需要手工设计奖励函数,同时收敛速度也得到了两倍以上的提升。

其他文献

黑龙江省基本养老保险基金管理研究

随着我国开始进入老龄化社会,养老金行业面临着众多老龄人口带来的行业压力。并且在我国目前高通货膨胀率的背景下,负增长是养老基金收益率的常态化趋势。那么如何在通货膨胀

学位

黑龙江省养老基金基金筹集基金支付投资运营

双阴极等离子溅射沉积Nb2N涂层及其性能研究

钛合金密度小、比强度高且生物相容性好,因此在航空航天、船泊制造以及生物医疗等领域被广泛应用,但其耐磨损性能差、高温抗氧化性能不足以及在卤元素离子水溶液中容易发生腐蚀等缺点限制了其使用范围。使用表面改性技术在钛合金表面制备硬质涂层以提高其物理和化学性能是目前使用最为广泛且有效的方法。氮化铌涂层作为一种新型硬质涂层,其硬度高、熔点高且具有优秀的耐腐蚀性能和耐磨损性能,因此被广泛应用于材料、化工、机械、

学位

双阴极等离子溅射沉积技术Nb2N涂层耐磨性耐腐蚀性

车载与地面点云数据的拼接技术研究

三维激光扫描技术作为逐渐发展成熟的一种高科技技术,其可以在短时间内获取海量的精度高、分辨率高的点云数据,具有很强的实时性,被广泛应用在城市地物信息采集、道路平整度

学位

车载移动测量系统地面三维激光扫描系统四元数ICP算法特征点点云拼接

无线传感网络的移动充电优化方法研究

传统无线传感节点中常见的工作方式是以节点配备电池来维持工作,而局限于电池容量和电池输出功率,传感器网络寿命有限,并且传统充电方式充电效率较低,随着研究发展进步,现有其他无线充电技术能够更合理有效的提高充电效率。当前无线传感网络中的充电模型可根据充电目标个数分为单节点充电模型和多节点充电模型,其中多节点模型根据其覆盖范围又可以分为全向无线充电模型和定向无线充电模型,以及采用太阳能电池板和充电小车两种

学位

无线可充电传感网络移动充电小车定向无线充电混合充电累计充电增益单位行程充电量

基于改进蚁群算法的移动机器人避障与路径规划研究

近年来,在飞速发展的科技带动下,机器人产业越发壮大,移动机器人技术已经成功地应用在社会中的各个领域,也为人们的日常生活带来了许多便利,而路径规划作为移动机器人技术研究中的一个重要领域受到了广泛地关注。本文围绕不同的环境设置和障碍物情况,采用蚁群算法开展静态环境和动态环境下的机器人路径规划研究,主要工作如下:首先,在静态环境中,传统蚁群算法存在搜索效率低,并且容易陷入局部最优的问题,针对这一问题,借

学位

移动机器人蚁群算法路径规划动态避障

公安机关人民警察人身权益法律保障研究

公安机关行使国家公权力对社会进行管理,公安机关人民警察扮演着维护法律权威,解决社会矛盾冲突,保障社会和谐稳定的重要角色,肩负着维护社会治安和保护人民生命财产的重任。大众普遍认为人民警察是社会的强势群体,以为他们的人身权益已经得到社会的全面保护,但事实并非如此。当前我国的经济社会发展进入到一个新的时期,社会治安领域矛盾持续激化,各类不稳定因素大量存在,公安机关的执法环境变得错综复杂,人民警察的执法权

学位

Z市政府融资平台发展问题研究

随着中国经济实力的不断提高和城镇化进程的不断推进,基础设施建设和城市配套设施的需求不断提高。由于投资支出主要由地方政府解决,地方政府的财政压力也在增加。1994年的分税制改革使地方政府财政资源严重削弱。同时,预算法的出台明确限制了省级以下地方政府直接融资,依赖于省级政府提供的资金和地方财力远远不足以支持基础设施建设过程中所需的大量资金。因此,地方政府需要探索一种新的融资方式来解决资金需求,政府融资

学位

政府债务融资平台平台困境转型策略

结合物理学史开展高中物理科学方法教育研究

当前《普通高中物理课程标准》强调培养学生核心素养,要求学生掌握一定的科学方法。为更好的实现高中物理科学方法教育,本次研究对近些年相关文献进行梳理,通过分析国内外科学方法教育及以物理学史促进科学方法教育的研究背景与研究现状,发现其中的不足之处,提出结合物理学史开展高中物理科学方法教育实验研究的设想,并期望在实验研究的过程中形成切实有效且可供参考的教学案例。论文总体分为理论和实践两个方面。理论研究方面

学位

教育高中科学方法物理学史

大规模多重图的k跳路径枚举算法研究

随着信息技术的发展,越来越多的数据以图的形式存在,如社交网络、生物信息学和电子商务等领域中大量的信息都可以用图来表示和建模。作为一种特殊的数据类型,图数据有着许多鲜明的特征,如数据规模大、拓扑结构复杂、计算复杂度高等特点,图上的查询处理难度比传统数据类型(如关系型数据表、XML数据等)上的查询处理难度大得多。在图数据分析领域,基本问题之一就是研究图中两个结点之间的关系,例如结点A如何影响另一个结点

学位

图分析图缩减s-t路径热点处理路径枚举

四旋翼飞行器移动目标跟踪控制研究

四旋翼飞行器具有结构简单、控制灵活、垂直起降等优点,搭载视觉传感器的四旋翼飞行器能够有效的解决摄像头固定或只能在小范围内运动情况下目标的检测和跟踪问题,是进行侦察、空中监控、安防等基于视觉任务的理想平台。因此,针对四旋翼飞行器移动目标跟踪技术的研究具有重要的意义和广阔的应用前景。本文主要研究内容如下:1.设计了四旋翼飞行器对移动目标跟踪的整体方案并搭建了配备有视觉传感器的四旋翼飞行器。通过对四旋翼

学位

四旋翼无人机目标检测目标跟踪PID自抗扰控制

基于深度强化学习的多智能体协同对抗方法研究

与本文相关的学术论文