基于强化学习的多智能体对抗算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yjichao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对抗是现实中十分常见的问题,小到游戏,大到战争处处都有对抗的影子。智能体攻防对抗是一种典型的对抗问题,其对抗主体由若干防守者与若干进攻者组成,防守者的任务是防守平面上的某一目标区域免于被进攻者靠近。对该问题的研究主要存在两个关键点:首先,攻防对抗问题属于微分博弈问题,需要对博弈的纳什均衡状态进行理论分析。其次,在实际应用问题中,需要设计适当的控制器以指导智能体的博弈过程向均衡状态发展,随着无人设备的智能化,控制器的设计也在寻求人工智能的解决方案。本文以攻防对抗问题为研究对象,将智能体攻防对抗问题分为双智能体攻防(一攻一防)与多智能体攻防(多攻多防)等场景,对相关问题进行了数学定义,理论均衡分析以及相适应的策略学习算法设计与改良,并设计出一套多无人车系统以对上述理论工作做实验验证。相关的研究重点包括如下:(1)对双智能体攻防问题进行数学定义与理论均衡分析;对多智能体攻防问题进行数学定义,并对三智能体攻防对抗问题进行了理论均衡分析;分析履带式车辆的运动学特性,建立移动机器人的运动学模型。(2)针对有限视野状态下的双智能体攻防问题,本文基于Q学习原理设计了一种解决该问题的学习算法,仿真实验证明该算法可以有效解决双智能体攻防问题。针对Q学习算法收敛慢的缺点,本文提出了一种基于人工势场法的改进Q学习算法,实验表明,改进方案有效加速了 Q学习算法的收敛速度。(3)针对复杂情况下的多智能体攻防问题,本文设计了一种基于MADDPG算法的控制器,仿真实验证明该算法可以有效解决多智能体攻防问题。针对MADDPG算法信息利用率低,资源占用大,算法收敛慢的特点,本文进行了相关的改进工作。实验表明,改进后的MADDPG算法收敛速度明显提升,对各种任务场景也都有较强的适应能力。(4)针对攻防对抗算法的实验验证问题。本文设计出一套基于机器人操作系统与超宽带定位系统的多无人车平台,并基于该平台在多种场景下展示了改进Q学习算法与改进MADDPG算法的控制效果。通过实物实验,进一步证明了上文所述运动学模型与理论均衡分析的正确性,以及相关训练算法的有效性。
其他文献
卷积神经网络是一种以卷积运算为主的前馈神经网络,在图像识别、音频识别等领域有着广泛的应用。随着卷积神经网络的不断发展,其内部权重参数和网络深度也不断增多,对算力提出了更高的要求,CPU和GPU难以提供如此算力,因此人们更加倾向于开发专用的卷积神经网络加速器。而传统的卷积神经网络加速器往往采用冯诺依曼架构,超过80%的功耗被消耗在数据的搬运过程中,因此不管是学术界还是产业界都逐渐将目光投向非冯诺依曼
随着第三代宽禁带半导体SiC材料和微型传感器技术的发展,SiC电容式压力传感器的应用领域越来越广泛,涉及的环境应力也越发复杂和恶劣。目前,国内外的研究聚焦于SiC电容式压力传感器的成品工艺实现、关键结构试样制备、仿真几何模型构建、输出特性优化、单一静态环境应力、静态综合应力及频域综合应力仿真等方面。对SiC电容式压力传感器在长时间高温环境应力、大量级压力疲劳环境应力及时域综合环境应力的影响研究较少
随着产业的发展移动机器人的应用场景随之增多,这同时也对移动机器人在复杂路面上安全避障与越障的可靠性提出了更高的要求。由于移动机器人在众多行业中存在实验性、定制化的特点,在对其进行可靠性分析与仿真实验过程中存在着数据不足与依靠研究者主观经验导致的不确定性,这影响了可靠性分析与仿真的准确度与可信度。因此如何在小样本与存在认知不确定性等条件下对移动机器人进行可靠性建模与仿真验证,保障分析结果的可信度是论
科技文献资源是科技创新活动成果的主要表现形式,和传播科学技术知识的重要载体,也是进一步提升科技创新能力的基础源头和重要支撑,已成为国家宝贵的战略资源之一。在科技创新过程中,创新主体对本学科发展历史及趋势的了解,及与同行的有效学术沟通尤为重要,而查阅领域相关的科技文献则是实现该过程的最好途径。但获取的科技文献是否全面、内容是否相关将直接影响创新的成效。因此,支持创新主体对科技文献获取方法的研究具有现
手术机器人因制造与装配等原因产生的几何尺寸误差,以及在机器人运动过程中所转化成的运动误差,使得手术机器人末端执行机构的实际位置与理论位置产生偏差,从而给手术时的精度带来了很大的隐患。为了解决这个问题,有必要对手术机器人的运动以及其在运动过程中产生的误差进行研究,从而在控制以及反馈系统中给予一定的补偿。为了保证手术机器人在工作过程中的可靠性,手术机器人的从手的运动应当符合医生控制的主手的运动,因此分
随着科技的进步与发展,越来越多的智能设备进入到人们的生活中,外骨骼机器人就是其中的一个,外骨骼机器人是穿戴在使用者身上并根据人的意图辅助人运动的智能设备。在外骨骼机器人的研究中,如何准确的识别人的运动意图是机器人控制系统中的重点。目前,意图识别技术主要分为运用电生理信号识别,如脑电信号、肌电信号、眼电信号;以及运用一般物理信号识别,如姿态信号、足底压力信号、人机交互力信号等。电生理信号比较微弱,容
无源助力外骨骼是一种能够支撑穿戴者负重,辅助人体运动的无动力的可穿戴机械装置。传统有源驱动助力外骨骼受限于电池技术,无法长时间持续穿戴使用,影响在户外的实际应用。无源外骨骼采用轻量化设计,不借助外部能源,依靠外骨骼机械结构和人体负重原理实现对人体的运动辅助,具有轻便、易穿戴、可长时间使用等优点,但无源外骨骼仍存在腿部支撑性和舒适性不足的问题。本文通过对无源助力外骨骼膝关节的支撑性和大小腿结构的舒适
MEMS压阻式压力传感器具有体积小、线性度高等特点在航空航天、汽车电子等领域具有广阔应用。随着航空航天等领域对高灵敏度、低非线性度MEMS压阻式压力传感器的需求增大,研制高性能的新型压力传感器十分必要,因此本文提出了一种新型的压力膜结构来实现MEMS压力传感器的高灵敏度与低非线性度。本文以MEMS压力膜为研究对象,以小挠度变形保证新型MEMS压力膜的线性度,采用惠斯通电桥为检测方法。论文的研究过程
随着科技进步与经济发展,国民对于生活品质的需求日益增加,作为前沿研究的热点之一,智能机器人的发展也慢慢从用于提升生产力的工厂中的工业机器人慢慢转向了用于提升生活品质的服务机器人中。人民生活水平和社会生产力水平的提升,让越来越多的机器人成为了人们日常生活中的好帮手,无论是针对个人家庭场景的扫地机器人、陪伴机器人还是针对专业场景的快递机器人、酒店机器人等等,越来越多的服务机器人帮助人们提高了生活质量。
温度与湿度是自然界中意义重大的两个物理量,对它们的测量自然也是十分重要的。温湿度传感器在工业农业生产、气象学、医学等领域中已经投入大量应用。近年来,物联网技术在逐渐兴起,电子设备也正朝着可弯曲折叠的趋势发展,传统的温湿度传感器的在柔性化方面开始投入研究。本论文制备了基于石墨烯/碳纳米管的电阻式柔性温度传感器与基于聚酰亚胺(PI)的电容式柔性湿度传感器。对传感器的敏感材料进行了表征分析,并对传感器的