基于深度强化学习的虚拟无人车控制研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zdh313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人车控制作为自动驾驶系统最底层的模块,对于自动驾驶的安全性、舒适性至关重要。主流的无人车控制采用基于模型的方法,使用控制理论,需要手工设计控制器的参数。基于模型的控制方法的己经被广泛地研究,其优点是具有可解释性,但是对于复杂的道路环境,控制器的参数将十分复杂。除此之外,传统控制器不具备自适应学习能力,即使存在一些自适应参数调节方法,也往往会受限于模型的表达能力,对复杂道路环境不鲁棒。针对以上问题,本文做了两项工作提升无人车控制的性能:第一,使用深度强化学习代替传统控制方法。本文使用免模型、自学习的深度确定性策略梯度(DDPG)实现虚拟无人车的横向和纵向联合控制。DDPG是一种流行的、用于高维感知输入、连续控制输出的深度强化学习算法,它通过试错寻找最优控制策略,不需要车辆动力学模型以及环境模型;DDPG通过与环境交互进行学习,对环境变化更鲁棒。本文在TORCS驾驶模拟器中验证了基于DDPG的无人车横向和纵向联合控制,控制误差在合理范围之内。第二,由于深度强化学习需要大量试错,某些试错行为可能是危险的,特别在无人车控制任务中。本文提出使用少量先验知识加速深度强化学习的训练,减少试错次数。具体做法是将由少量先验知识设计的监督器指导DDPG的训练。这样的算法被称为监督式深度确定性策略梯度(Supervised DDPG)。本文在TORCS模拟器中比较了传统控制方法(本文使用反馈控制器)、DDPG、Supervised DDPG三种模型在无人车横向控制任务中的表现,实验结果显示,Supervised DDPG的控制性能比传统控制方法更加精确,收敛速度相比于DDPG大大提升,减少了试错次数。
其他文献
随着工业发展和应用的深入,远程监控系统需具备对生产过程的检测,管理,监督和控制等功能。传统有线方式远程监控系统虽然在系统性能等方面具有许多优势,但是在解决地域偏远、控制
随着互联网应用的迅猛发展、复杂性的增加,网络蠕虫由于其危害严重、攻击范围大、爆发速度快等特点而成为目前互联网所面临的最为严重的安全威胁之一。如何防范蠕虫的传播,对
嵌入式技术是当今最热门的技术之一,由于其简洁、高效等优点,使得其广泛应用在各个领域。所谓嵌入式系统就是以应用为中心,以计算机技术为基础,并且软硬件可裁剪,适用于对功能、可
电动式负载力矩模拟器作为力矩加载的地面仿真设备,以小力矩加载,低惯量、转速快等优点广受人们青睐。在经过了数年的研究,对于电动负载模拟器的控制策略及多余力的抑制等方面较
连铸是钢铁生产的一个重要环节。连铸生产中,经过结晶器一次冷却后带有液芯的钢坯被拉入二次冷却区。二冷区内的冷却水喷淋到钢坯表面,带走钢坯内部的大量热量,使得铸坯温度均匀
本文以某研究所提供的某型歼击机的飞机模型为对象,研究了容错控制技术以及基于神经网络的故障诊断技术,设计了歼击机容错控制律和故障诊断方案,并用C++语言编程实现。首先,
摘本文主要研究了基于网络环境的四自由度机械臂控制系统的实现过程,并在此过程中所遇到的一些问题的进行了分析和讨论,同时研究实现控制的远程化、网络化所遇到的关键问题。
本文经过研究POLDER海洋水色处理线,提出了一种新的海色处理线大气订正算法,该算法是利用POLDER的气溶胶产品进行大气订正。高精度的气溶胶产品,高精度的离水辐射率。POLDER传感器设有三个偏振通道,分别是443nm,670nm,865nm,理论上认为,与其它的传感器相比,POLDER的偏振波段探测气溶胶,可以提高反演气溶胶的精度;法国的cnes光学实验室已经开发出成熟完备的大气产品算法,并利
基于网络的遥操作机器人,可以实现对远端机器人的远程操作,它拓展了人类的作业空间,在远程医疗、空间作业、工业合作生产等领域都有着广泛的应用前景。无论从实际应用前景或者理
分析了国内污水管道现状及检测与维修情况,根据污水管道作业机器人的机械结构,设计了一种电液结合的污水管道作业机器人控制系统。分析了系统控制板要完成的工作,并描述了其硬件