论文部分内容阅读
自动驾驶系统是一个集环境感知、决策控制等功能为一体的综合系统,近年来随着人工智能技术的发展及其在生活中的普及,机器学习的方法也逐渐被引入到了自动驾驶系统的设计中。本文的研究依托于国家科技部项目“电动自动驾驶汽车关键技术研究与示范运行”,旨在通过将强化学习方法与自动驾驶技术结合,进一步改进自动驾驶汽车纵向决策层的设计,从而适应多变的行车环境,并且在决策过程表现出人性化与个性化。主要研究内容如下:(1)汽车纵向自动驾驶决策框架首先针对自动驾驶纵向控制中基于规则的决策推理模型进行阐释,然后介绍了基于值函数和策略的两种强化学习方法。在此基础上,将深度学习与强化学习方法结合,介绍了两种适用于自动驾驶任务场景的深度强化学习算法。最后,在自动驾驶纵向控制与强化学习基本理论的基础上,完成了基于强化学习的自动驾驶汽车纵向决策框架的设计,将其应用于高维状态动作空间下的自动驾驶任务序贯决策问题。(2)基于深度强化学习的自动驾驶纵向控制研究在考虑车辆行驶安全性,舒适性和稳定性的多目标决策体系基础上,为了尽可能表现出系统的人性化与个性化,选取驾驶模拟器作为数据采集平台,设计多种日常行驶工况采集驾驶员的真实驾驶数据,基于卡尔曼滤波的方法对数据处理并提取出三种能够表现驾驶特性的特征参数用于最终的试验验证。在所设计的纵向决策框架中,首先针对自动驾驶纵向控制任务对马尔科夫决策过程建模,根据环境感知层的行车环境信息和车辆状态信息输出选取若干特征作为状态集元素,以期望动作指令做为动作集元素,而后基于逆强化学习的方法,对驾驶员真实驾驶行为数据重采样后作为若干组专家状态轨迹应用于回报函数模型的建立,并将回报函数用于行为价值函数和策略网络的训练,对模型网络的结构完成参数设计,基于状态集动作集与个性化回报函数完成纵向自动驾驶的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法设计。最后,由上层基于强化学习算法的决策模型输出车辆期望加速度后,参照车辆逆纵向动力学模型对下层执行控制器设计以建立决策模型输出与车辆接口的控制信号输入之间的联系,分别设计了加减速模式切换逻辑以及逆向驱动制动模型,并在Carsim中搭建了仿真测试环境,模拟了车辆在期望加速度下的实际动态响应,验证了模型的可靠性,从而实现对驱动及制动系统的实时控制并在宏观层面上体现驾驶员的操作特性。(3)纵向控制算法试验与验证基于Carsim与Simulink联合仿真平台与哈弗H7线控化智能车试验平台对本文所设计的自动驾驶车辆纵向控制算法进行仿真试验与实车试验。通过选取日常交通场景下的典型工况进行测试验证,并将驾驶员真实驾驶数据与系统控制下的试验结果对比,验证了算法在定速巡航、目标跟随等多个控制状态下的有效性、合理性与可靠性。