论文部分内容阅读
自动驾驶的任务是车辆通过各种传感器感知道路环境,在没有人为进行干预的情况下,实时地改变驾驶的行为,包括转向、加速和制动等。实现自动驾驶可以使交通事故的发生减少,道路交通资源得到更合理的利用,因此研究自动驾驶技术具有非常重要的意义。由于端到端的自动驾驶不需要人为指定规则,而直接学习驾驶动作,所以端到端方法的研究是自动驾驶领域的重要研究方向之一。深度强化学习方法通过和环境交互学习策略与人类学习驾驶的方式相似,被广泛用于端到端驾驶任务中。本文利用深度强化学习算法,对虚拟环境下车辆的自动驾驶进行研究。该算法是基于深度确定性策略梯度算法的改进,针对训练样本利用率低的问题,将优先经验回放方法与深度确定性策略梯度算法相结合,从仿真环境中获取原始的传感器输入,模型输出连续的加速、转向、制动行为,并将训练数据存入缓冲区中,通过优先经验回放的高效采样方法,实现训练速度的加快。由于深度强化学习需要车辆与环境进行多次交互,训练过程中会出现错误的驾驶行为,在现实中训练自动驾驶会对车辆和周围环境造成不可估量的损害,所以本实验是在仿真平台的虚拟环境中实现的,然而端到端驾驶的最终目标是使真实车辆在现实环境中自主做出驾驶决策,而结构化的模拟环境与复杂化的真实环境之间存在着巨大的差异。本文通过图像翻译的方法连接虚拟与现实之间的差距,使用CycleGAN网络将虚拟图像转换成与真实图像相似的视觉外观,将生成的图像作为深度强化学习的输入,将虚拟环境中学习到的策略直接应用到现实世界,以此来提高现实世界的学习效率。本文在深度强化学习实验中,使用了仿真平台对改进后的深度强化学习算法进行了验证,证明了该算法可以实现端到端自动驾驶并加快了训练速度。并且本文使用真实数据集验证了虚拟到现实的图像翻译模型,证明了图像翻译的迁移方法的有效性。