基于深度强化学习的自主无人系统驾驶策略研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:rongtian2588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会与经济的快速发展,我国民用汽车保有量正在逐步增长,但这也导致了愈发严重的环境污染问题和道路安全问题。自主无人驾驶技术作为多领域交叉融合的新兴技术,可以通过自主智能化的控制策略来控制车辆,带来更加安全可靠的驾驶环境和高效的行驶方案,对于提高现实道路交通的安全性和效率具有十分重要的研究意义。强化学习是基于奖励驱动的一种机器学习方法,被广泛应用于智能体的学习策略问题,特别是深度强化学习的提出,使其可以拓展到一系列更加复杂的现实决策问题上。自主无人系统的驾驶策略需要应对多种复杂多变的交通情景进行决策,因此将深度强化学习应用于自主无人驾驶领域具有广泛的应用前景。本文主要针对自主无人系统的驾驶策略进行研究,基于虚拟驾驶仿真平台将深度强化学习应用在自主无人系统的多任务驾驶场景中,主要工作如下:本文基于TORCS虚拟驾驶仿真平台构建了一个强化学习交互框架,并提出了一种基于深度强化学习的端到端的自主驾驶策略学习方法,在TORCS仿真环境下实现车辆的车道保持和借道超车任务。针对传统强化学习算法在驾驶任务中需要长时间训练,本文基于随机策略的梯度策略强化学习算法PPO的基础上,通过引入RND好奇心机制生成内在奖励指导智能体探索环境,从而提高智能体探索环境的效率,使得自主驾驶策略学习可以更快的收敛;然后结合裁剪双评价网络,在原Actor-Critic框架上引入一个辅助Critic评价网络,在更新目标值时选择更低的估计值,从而避免高估偏差,同时引入GAE泛化估计器在保持一定偏差的情况下降低优势函数的估计方差,提高训练的稳定性。实验数据表明,改进的PPO算法在模型的训练效率和控制性能都获得了一定的提高。本文将改进的PPO算法在TORCS虚拟驾驶仿真环境上进行了多任务驾驶场景实验,并与传统的DQN、DDPG、TD3和PPO算法进行对比。针对车道保持任务、给定速度的车道保持任务和多车辆超车任务的不同特点,本文确定不同任务下强化学习的状态输入和动作空间,并根据任务特性设计奖励函数。在车道保持和给定期望速度的车道保持任务实验中,实验数据表明,改进的PPO算法可以有效提高驾驶策略模型的学习训练性能,模型可以较快的完成第一次任务,最终的策略收敛也更快;此外,在控制性能上,从模型跟踪赛道中线的距离误差和角度误差可以看出,其控制性能也更加稳定;在泛化性能实验中,本文也将改进的算法和各个对比模型部署到未知的赛道地图上验证算法模型的泛化性能,结果表明,改进的PPO模型可以在多个未知赛道中完成任务并保持较好的控制性能。最后在多车辆超车实验中,本文算法设置多辆不同状态的对手车辆,同时确定新的状态输入和奖励函数,通过改进的PPO算法对多车辆超车任务进行训练和实验。结果表明,对于不同的对手赛车,控制车辆都能根据自身行驶状态和对手车辆位置来做出合适的驾驶策略实现借道超车。
其他文献
硒是人体所必需的微量元素,具有重要的生理功能。无机硒对人体有一定的毒性,通过酵母生长代谢过程,使无机硒转化到细胞内的蛋白质及多糖上,成为有机的形式。硒蛋白具有高生物
微生物燃料电池(Microbial Fuel Cell,简称MFC)是一种可以将废水中有机物的化学能转化为电能进行回收利用的新型电化学装置。它利用阳极室内的产电微生物将废水中的有机物降
在数据量以指数增长的互联网时代,如何处理上百GB甚至TB、PB级别的数据量,已经成为人们日益迫切的需求。近年来,随着分布式计算框架的普及和发展,Spark作为新一代的大数据处
随着中国智能制造的不断发展,人们对工业机器人的需求也越来越广泛,工业机器人图像系统是实现智能化和人机交互的关键技术。但随着日益增长的图像技术发展,传统的图像处理系统方案已不能满足现在的需求,人们对图像处理的速度和效率都提出了更高的要求。本文以国工信(沧州)机器人有限公司的NII-P10T-1500工业机器人为研究对象,分析现有的图像处理系统方案,从而采用了基于FPGA的图像加速系统,通过设计一款低
城市商圈是社会经济发展和商业文明进步的必然产物,其交通是否畅通关系到商圈能否高效运作。以青岛市李村商圈为例,通过对其交通拥堵现状及城市规划情况进行解读,利用手机大
风力发电技术有广阔的发展应用空间,在不断提升装机容量的同时,大型风机面临更优化的设计和更复杂的工况,随之带来的一系列风机振动问题也愈发突出。本文基于广义坐标下的拉格朗日方程,应用一个8自由度风机动力学模型,对5WM风力发电机进行了动力学分析,并考虑对塔筒面外振动进行减振。本文完成的主要工作如下:(1)总结了各类风力机的构造形式和多种荷载的作用特点,介绍了常见的风机减振、隔振方案和部分发电机机组特有
近年来,随着工业化的快速发展及城镇化规模的扩大,水污染的问题越来越突出,造成了饮用水水源日益恶化。然而人们生活水平的提高对饮用水水质提出了更高的要求,由此国家水质指
细胞融合是指通过介导和培养,在离体条件下用人工干预的方法将细胞通过无性繁殖方式融合成杂合细胞的过程。细胞融合技术不仅为核质相互关系、基因调控、遗传互补、肿瘤发生
聚酰胺6(PA6)作为一种广泛使用的工程塑料,其本身具有耐磨、耐油、力学性能优良、自润滑、绝缘、易成型加工等优良的综合性能,但PA6对缺口较为敏感,低温冲击强度低,使其在汽
研究背景:蛋白质-能量消耗(protein-energywasting,PEW)在维持性血液透析(maintenance hemodialysis,MHD)患者中的患病率达到18%-75%。研究证实,PEW是导致死亡风险增加的重要独立危险因素。因此,准确地评估MHD患者是否存在PEW并依据评估的结果而采取相应的干预措施对于改善患者的预后有着积极的意义。目前已达成一致的共识,在评估患者的营养状态之前