论文部分内容阅读
随着计算机性能的提升以及机器学习的高速发展,车辆的五级自主行驶已经成为可能。因此民众对于智慧城之、智能交通的呼声也越来越高。车辆自主行驶系统作为智能交通的重要部分,对于其研究的紧迫性不言而喻。目前,大部分自主行驶系统都使用传统的局部路径规划以及车辆控制算法:环境感知算法对车辆行驶过程中周围的环境进行感知并将其转化为可供计算的特征,局部路径规划算法对环境感知的结果进行计算给出车辆预计的运动轨迹,车辆控制算法根据运动轨迹给出控制信号对轨迹进行跟踪的信号——其安全性与高效性完全取决于环境感知与局部路径规划的结果。而环境感知,路径规划与车辆控制作为独立的任务,无法从根本上进行有机的结合。对于自动驾驶而言,上述三个任务的结合越紧密,自动驾驶的准确性与安全性越高。本文主要研究深度学习与强化学习相结合的深度强化学习理论与方法,将环境感知、局部路径规划、车辆控制融合为一种智能控制技术,在上层模块更新驾驶任务后,根据环境感知结果、反馈设计公式给出的结果完成网络模型训练及预测,最终实现车辆自动驾驶的多场景任务。在自主搭建的仿真环境中进行动态行车环境的安全性分析,并根据车辆附近的障碍物信息以及当前行驶任务给出实时的车辆控制信号。行驶任务包括道路保持、并线、超车以及路边停车等车辆行驶中常见的场景。针对每一种场景设计不同的仿真环境以供深度强化学习网络模型完成相应的训练。在预测过程中深度强化学习网络模型将对不同的行驶任务进行无缝切换。本文的主要研究工作如下:1)设计了一种可在智能决策的基础上完成车辆智能控制的深度强化学习网络模型,该模型可在得到不同决策信号后完成决策对应的智能控制任务,如道路保持、左右转弯、变道以及路边停车。2)在使用仿真环境的基础上,根据深度强化学习网络模型的训练特点,提出了根据不同的使用场景制作不同的仿真场景的方式完成网络的多任务训练:通过随机出现行人或车辆,在停车时增加间距不等的障碍物等方式构造模拟真实情况下的仿真环境,根据深度强化学习网络模型的训练特点,实现道路保持、左右转弯、变道以及路边停车等多任务的训练。将多个任务转换为多个不同的马尔科夫模型。针对不同马尔科夫模型的不同状态转移概率矩阵,设计了不同仿真场景。3)在多仿真场景的仿真环境中,设计了针对当前场景的反馈计算公式以及终结条件进行分数计算。反馈计算公式的设计主要考虑当前场景的任务特点,比如是否靠近道路中线、是否远离障碍物等因素。4)深度强化学习网络模型将在这六个场景中同时进行训练,并异步的进行反向传播,改进网络参数,确保网络模型具有同时完成这六个功能的能力。该方法将提升网络的训练速度,同时避免了网络因长时间训练新任务而无法完成旧任务的情况。通过仿真环境验证,本文提出的方法完成车辆在不同行驶任务中的智能控制问题,有效的提升车辆自主行驶过程中的高效性与安全性。