基于PPO算法的智能汽车端到端深度强化学习控制研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:konami_13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶领域高速发展,实现完全自动驾驶的方式主要有基于“感知-决策-控制”的方法和基于深度学习与强化学习的机器学习方法。本文针对端到端模仿学习的泛化问题与深度强化学习训练的前期不稳定问题,采用二者相结合的方法,构建了端到端深度强化学习自动驾驶控制模型。该模型具有对环境理解深入、稳定性与泛化性较好的优点。本文的主要研究内容包含:(1)本文深入研究了深度学习与强化学习理论基础,介绍了以演员-评论家框架为基础的PPO算法。在此基础上构建了基于深度强化学习的自动驾驶模型,为建立端到端深度强化学习自动驾驶控制模型的开发打下基础。(2)本文介绍了智能车端到端控制模型输入的状态空间构成,以及状态空间设计的重要性,提出了基于VAE图像特征压缩方法与基于YOLOv4目标检测算法的环境特征提取方法;解决了在自动驾驶任务中强化学习状态空间包含图片这种维度较大的特征导致收敛较慢的问题,以及对图片进行压缩过程中会存在交通灯信息丢失的问题。VAE的编码器结构可以对图片起到压缩的作用,加快强化学习模型收敛,使强化学习模型满足算法实时性的需求。然而,压缩后的隐向量会丢失部分交通环境信息。以交通灯为例,本文使用YOLOv4目标检测算法对这部分环境特征进行提取,在状态空间中补充交通灯特征来解决这一问题。(3)本文建立了一种基于近端策略优化算法的端到端深度强化学习自动驾驶控制理论模型。模型主要分为状态空间特征提取模型、PPO强化学习模型、环境交互模型。PPO强化学习模型可以在环境中不断学习更新策略,以实现自动驾驶任务。通过模仿学习预训练的端到端深度学习网络权重可以用于深度强化学习的演员网络,这样可以防止在训练初期由于网络权重随机初始化造成车辆混乱行驶,探索不到正确动作收敛较慢的情况发生。状态空间特征提取模型是由前文模型整合而成,通过该模型可以输出简洁、完整的环境特征向量。环境交互模型中奖励函数的设计综合考虑了车辆行驶速度与方向、碰撞、车道偏离、交通灯通过情况、全局指示因素的影响,设计了自动驾驶任务综合影响因素的奖励函数,使智能汽车能够快速学习到自动驾驶策略。(4)本文对比了主流的自动驾驶仿真平台,选择CARLA作为本研究方向的自动驾驶仿真平台,并配置了相关的仿真环境。设计了4个难度逐渐增加的自动驾驶任务。通过实验验证了本文端到端强化学习自动驾驶控制模型可以较好地完成上述任务,证明论文中自动驾驶方案的可行性。
其他文献
本书集中展示了李庾南老师及其带领的班主任团队有关“班级育人”的生动实践,充分展现了“自育·互惠·立范”的育人主张。本书每节主题班会都完整介绍了班会的现实背景、教育目标和操作过程,并附有专家的深度点评,具有很高的实践指导性。教育部原副部长、江苏省原副省长、国家教育咨询委员会委员王湛作序并强力推荐!热忱欢迎有关单位或个人订购本书——联系方式:江苏省南京市湖南路1号A座21层《教育视界》编辑部
期刊
采用不同种类的硅烷偶联剂和钛酸酯偶联剂处理氧化铝粉体,研究了偶联剂种类和用量对导热硅橡胶热导率、硬度和粉体最大体积填充率的影响。结果表明:在降低固化前浆料黏度和提高粉体体积填充率方面,硅烷偶联剂优于钛酸酯偶联剂,但钛酸酯偶联剂可以显著降低复合材料的硬度。
疲劳驾驶是造成道路交通事故的重要原因之一,对驾驶员的疲劳驾驶状态进行检测及预警具有十分重要的意义。本文在深入分析目前国内外在疲劳驾驶检测及预警方面研究的基础上,将光电容积脉搏波信号应用于疲劳驾驶检测研究中,分析驾驶员疲劳状态下光电容积脉搏波信号的变化特征,并提出了一种基于支持向量机的驾驶员疲劳驾驶检测及预警算法。首先,本文利用驾驶员在环实验平台和脉搏血氧仪,设计并实施了疲劳驾驶模拟实验,获得了实验
自动驾驶技术的开发将会极大地有利于行车安全,减少交通事故的发生,因此在当代,自动驾驶的实现已经势在必行。由于基于模型的控制算法无法适应多变的行车环境,因此能够与环境交互,不断学习环境的强化学习算法将会在智能车领域扮演极为重要的角色,但是由于强化学习算法存在一定的失效问题,这将有可能导致严重的交通事故,所以减少强化学习算法在智能车应用中的失效,提高行车安全将是未来智能车研究中不可或缺的部分。本文以自
目的 探讨中西医结合治疗面神经炎患者的临床疗效。方法 将64例面神经炎患者随机分为对照组和研究组,每组32例。对照组采用阿昔洛韦、甲钴胺静脉滴注联合强的松口服及红外线治疗,研究组采用强的松口服联合针刺、中药口服。结果研究组总有效率96.9%(31/32),高于对照组的87.5%(28/32),差异有统计学意义(P <0.05);研究组治疗天数明显减少,差异有统计学意义(P <0.05)。结论 中西
从"说理式班会课"到"心法式班会课",是时代发展的必然。"说理式班会课"的诸多弊端,要求"心法式班会课"实现从"教师立场"到"学生立场"、从"问题导向"到"成长导向"、从"生硬说教"到"活动体验"的三大转向,并在其具体实施中通过对话生成、叙事共情、活动体悟、协同共育等形式,引导学生品德自我构建、内生外化,真正实现班会课的走心育人。
在化石资源日渐枯竭、环境问题日益突出的今天,发展节能、环保的纯电动汽车成为时代的需求。电动汽车因其无尾气污染、国家政策补贴等因素受到市场的青睐,但是续驶里程也成为大规模推广的制约性因素。而双电机四驱汽车可以在总驱动转矩不变的情况下,充分利用两电机工作效率的差异分布,合理决策前后电机的转矩分配,扩大动力系统的节能空间。已有双电机动力系统的匹配研究多集中于行星排式耦合驱动机构,对双电机四驱构型的研究较
汽车智能化的发展对车辆操纵稳定性提出了更高的要求。车辆转弯时,会出现轮胎不能提供合适的侧向力使车辆操纵稳定性变差的问题,具体表现为:低速行驶下车辆达不到期望横摆角速度,导致其转弯半径增加,车辆过弯时的机动性变差;高速行驶下车辆很容易超出稳定边界,出现侧滑甚至是翻车等危险情况。主动车轮外倾控制的变结构智能悬架可以通过控制车轮外倾角主动产生车轮侧向力并优化轮胎的附着特性,是改善车辆操纵稳定性的一种有效
针对资源勘探、军事打击、灾后搜救与灭火消防等领域的实际需求,传统被动悬架系统车辆在复杂地形行驶时,难以保持车身姿态稳定,影响野外作业精度,甚至会发生严重侧翻事故。而搭载主动悬架系统的车辆,能够实时根据地形信息对整车姿态进行控制,提升车辆的稳定性与安全性。串联式主动悬架作为有限带宽主动悬架中的一种,它的执行器与减振器串联布置,相较于并联式与混联式的主动悬架结构更简单、设计成本更低、姿态调节范围更大,
自动泊车系统的发展目标是最后一公里的无人驾驶,停车场为汽车的自动驾驶提供落地的场景,也是实现自动驾驶很好的切入口,因此自动泊车技术成为研究热点。车辆的剐蹭大部分都是发生在泊车时,泊车过程是车辆驾驶过程中比较复杂的过程,而自动泊车系统无需驾驶员的干预,车辆自动安全的泊车入库,有效地减轻驾驶员的疲劳和减少与周围环境发生剐蹭的几率。随着车辆自动化程度越来越高,自动倒库充电是一种典型的应用场景,要考虑车辆