基于深度强化学习的多智能体系统避障控制研究

来源 :广西科技大学 | 被引量 : 0次 | 上传用户:xiao5playgame
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鉴于传统多智能体系统避障算法在避障效率以及获取避障路径时间上与智能避障算法相比略显劣势,越来越多的多智能体系统避障算法研究者将注意力转移到智能避障算法上,研究对象也由成熟的单智能体避障扩展到多智能体系统编队避障上。目前以深度强化学习的智能避障算法作为多智能体系统研究热点。然而深度强化学习算法在多智能体系统编队避障过程中会出现训练步数过多或者避障效果不明显等一系列问题,为解决上述智能避障算法在多智能体系统应用中提到的问题,本文作了以下研究:首先,针对单个智能体的避障算法,本文在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的基础上,对传统的奖励函数进行改进,结合智能体实际避障环境,以静态障碍物为模拟环境,单智能体通过在复杂障碍物环境下,进行传统DDPG算法以及改进后的DDPG算法仿真对比试验,经过仿真结果图以及不同训练次数下的损失函数对比得出改进后的DDPG算法所获得的路径更加平滑,避障效果较好。其次,对于多智能体系统编队避障算法,针对多智能体系统编队在路径规划过程中队形不稳定问题,对多智能体编队方式进行改进,通过采用角度距离度量的方式进行编队;针对多智能体系统在获取路径时间上较慢问题,通过改变传统由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点(start point)指向中点(middle point),终点(end point)指向中点的两条路径;针对多智能体系统在避障过程中存在与障碍物距离较近的问题,对奖励函数设计为同号智能体相碰为正向奖励,异号智能体和智能体与障碍物之间相碰为负向奖励。通过在搭建的静态障碍物以及动态障碍物两种仿真环境下分别进行DDPG改进算法验证,经过仿真结果图以及不同训练次数下奖赏值对比得出改进后的DDPG编队算法相比传统DDPG算法节约了路径获取时间,并且编队避障的效果更加明显。最后,在机器学习库Tensorflow框架下,对单个智能体的避障过程,以及对多智能体编队避障过程进行仿真。结果显示,在单智能体避障仿真中改进后的DDPG算法较传统的人工势场法以及原始的DDPG算法在避障效果上更好,所获得的路径更加平滑;在多智能体系统编队避障仿真中改进后的编队避障算法在路径规划过程中队形保持较稳定,避障效果明显。
其他文献
频率是电能质量的重要指标,互联电力系统的频率偏差反映了有功功率与负荷之间的平衡关系。随着互联电网结构规模日益扩大和不同功率电网的联网接入,在人民用电需求得到满足的同时,频率发生了偏移,产生了频率偏差,频率偏差威胁着互联电网运行的稳定性。自动发电控制(Automatic Generation Control,AGC)是互联电网的二次调频方式,对电网稳定安全运行具有极大意义。AGC目标为调整频率偏差,
学位
迭代学习控制是智能控制的研究内容之一,它可以较少地依赖系统信息,通过重复执行任务获得良好的跟踪性能。迭代学习控制的基本思想是利用系统先前的控制经验和输出误差来修正系统的控制输入,通过迭代不断改善系统的跟踪精度,达到完全跟踪的控制目的。实际系统运行过程中,系统状态或输入输出都可能受到随机因素的干扰,因此考虑随机系统的迭代学习控制问题具有重要的理论与实际意义。目前,关于随机系统迭代学习控制问题主要集中
学位
新形势下,劳动教育与初中英语课堂标准化教学相结合,是英语标准化教育发展的必然趋势。本文提出劳动教育在初中英语课堂标准化教学中的应用,总结了目前标准化教学中劳动教育应用现状,其中教学内容有待规范、缺乏规范化教学方式、缺乏标准化保障措施等问题突出,针对教学现状提出教学内容标准化、教学方法规范化、保障措施标准化3个应用策略,促进劳动教育在初中英语课堂标准化教学中更好地应用。
期刊
功率放大器是S波段谐波雷达发射系统中重要的器件,由于功率放大器本身的非线性特性和记忆效应,会使基带产生的信号通过功率放大器后发生失真,严重影响接收端对信号的接收。因此,解决功率放大器中的非线性失真的问题,逐渐成为新的热点。其中,数字预失真技术具有适应能力强、可调节能力强等优势成为功放线性化技术的热点。基于S波段谐波雷达和预失真直接学习结构中的特点,针对传统的自适应算法收敛速度慢、抗噪能力弱、最优值
学位
随着新能源汽车产业的快速发展,对新能源汽车电机驱动控制的要求也越来越高,作为电机驱动控制系统重要组成部分的半导体功率器件,是保证车辆运行可靠的关键部件之一。近年来,对第三代半导体技术的研究逐渐深入,以碳化硅为例,由于具有耐压等级高、开关速度快等优势,在电机驱动控制领域的应用前景越来越受到人们关注。本课题基于对碳化硅功率器件的特性进行分析,探究碳化硅功率器件在永磁同步电机控制领域中的应用研究,本文主
学位
要加快构建德智体美劳全面培养的教育体系,可以在高中数学校本课程中融入劳动教育,以此发挥劳动教育的育人功能,促进学生深入理解所学数学知识与技能,培养其勤俭节约、乐于奉献的劳动精神。文章分析了将劳动教育融入高中数学校本课程的意义。同时,文章采用调查法、观察法,整理调查研究数据以及实际教学案例研究了劳动教育融入高中数学校本课程的实践策略,旨在设计并开展具有劳动特色的数学校本实践课程,推进“五育”并举,构
期刊
人类视觉系统具有快速提取物体轮廓、区别颜色、形状感知和朝向感知等功能,因此,仿生型轮廓检测成为计算机视觉领域研究的热点之一。现有仿生型轮廓检测模型主要致力于研究X型细胞的线性特性和Y型细胞的非线性特性,忽略了W型细胞的眼动机制。W型细胞的眼动机制具有突出目标轮廓的能力,通过研究W型细胞眼动机制对X型细胞视觉信息响应进行调控,以及融合X型细胞、Y型细胞和W型细胞的视觉通道信息,能够增强轮廓的完整性和
学位
木材表面缺陷检测是木材加工及木材加工工业智能化的重要环节。为了提升木材的利用效率,各国学者提出了多种木材表面缺陷检测方法。但是木材表面缺陷的纹理结构、颜色与尺寸等特征差异较大,给缺陷的定位与识别带来了巨大困难。首先目前的木材缺陷检测没有公开的木材表面缺陷数据集,不能较好地做到对缺陷区域进行统一的检测识别。然后没有简单易实现的算法实现缺陷的检测。对此,本文主要从缺陷检测和缺陷识别两个方面进行研究。研
学位
汽车保有量的日益增加,层出不穷的交通事故也随之而来,这引发了人们对自动驾驶及辅助驾驶技术的研究热潮。环境感知系统作为自动驾驶汽车与高级辅助驾驶系统(Advanced Driving Assistance System,ADAS)中的关键组成之一,而车辆识别技术又是环境感知系统的重要研究内容。实时、准确的车辆识别可以提高行车安全性与舒适性,车辆识别方法中常见的两种传感器为毫米波雷达与相机。雷达系统的
学位
随着科技创新发展,对教学深化改革创新形式有一定的影响,科技技术助推教育成果提升。我国高等数学是培养大学生抽象思维、推理、运算和自主学习综合能力的课程,高等数学教师应与时俱进积极创新教学模式,在课堂上积极结合“知识可视化技术”,这是一种创新教学模式,符合高校课程教学目标和学生个性特点,有利于提升教学质量。本文分析了知识可视化技术在高等数学教学中的应用,以提高教学质量,实现我国人才培养计划。
期刊