论文部分内容阅读
智能汽车规划决策是智能汽车实现高度自动驾驶的关键,特别是在混合交通流环境中,类似非保护相位转向车辆通过交叉口是智能汽车最具挑战性的混杂环境下规划决策任务。以左转车为例,在转向过程中有三种典型的交互特征:多个冲突对象;与车辆,非机动车辆和行人之间的多层交互行为,以及多层交互导致的长时交互事件链。在目前的研究中,鲜有模型同时考虑这三种典型特征的影响。本文的研究聚焦于在混杂环境下如何构建智能汽车规划决策行为模型,相关工作以最具挑战性的二相位信号控制交叉口左转车规划决策为例开展研究。
首先,本文提出了一种Conv-LSTM深度学习模型来预测在交叉口混杂驾驶环境中转向车辆在转弯过程的每个时刻的位置,完成转向车辆的运动规划(Motion Planning)任务。该模型中包含卷积操作层,卷积层是卷积神经网络(CNN)的重要组成部分,用于提取不同时间段内更高级的特征。之后,采用长短时记忆(LSTM)网络来获得依赖于历史时期特征的特征序列。最后,通过车辆的非完整约束来修正Conv-LSTM的初始预测。
随后,考虑到实际场景中标签数据获取难度,本文又提出了一种基于深度强化学习,考虑驾驶规则约束的深度确定性策略梯度(DDPG)模型。DDPG可以在连续动作空间中进行规划决策的制定,同时基于规则的约束由安全约束和运动约束组成,添加到训练过程中可避免运动规划不合理的情况。
最后,为验证本研究提出模型的有效性,构建仿真环境搭建训练平台。对于深度学习模型,与CNN和LSTM模型相比,Conv-LSTM模型表现更好。相对于CNN和LSTM,轨迹上每个点的平均偏移分别减少了50.4%和37.1%,所提出的模型很好地再现了左转过程中的交互行为,并且也证明了所提出的模型对于真实环境的泛化能力。对于深度强化学习模型,本文讨论了三种不同的奖励函数设置效果,通过模型收敛性和有效性的比较,得到综合考虑安全性和通行效率的奖励函数表现最佳,同时也验证了考虑约束对于模型有效性的影响。
本文的研究立足于中国混合交通流环境下智能汽车规划决策行为的实际需求,是对现有方法的进一步完善,研究能够为混杂环境下智能汽车规划决策模型提供创新性的思路及支撑。
首先,本文提出了一种Conv-LSTM深度学习模型来预测在交叉口混杂驾驶环境中转向车辆在转弯过程的每个时刻的位置,完成转向车辆的运动规划(Motion Planning)任务。该模型中包含卷积操作层,卷积层是卷积神经网络(CNN)的重要组成部分,用于提取不同时间段内更高级的特征。之后,采用长短时记忆(LSTM)网络来获得依赖于历史时期特征的特征序列。最后,通过车辆的非完整约束来修正Conv-LSTM的初始预测。
随后,考虑到实际场景中标签数据获取难度,本文又提出了一种基于深度强化学习,考虑驾驶规则约束的深度确定性策略梯度(DDPG)模型。DDPG可以在连续动作空间中进行规划决策的制定,同时基于规则的约束由安全约束和运动约束组成,添加到训练过程中可避免运动规划不合理的情况。
最后,为验证本研究提出模型的有效性,构建仿真环境搭建训练平台。对于深度学习模型,与CNN和LSTM模型相比,Conv-LSTM模型表现更好。相对于CNN和LSTM,轨迹上每个点的平均偏移分别减少了50.4%和37.1%,所提出的模型很好地再现了左转过程中的交互行为,并且也证明了所提出的模型对于真实环境的泛化能力。对于深度强化学习模型,本文讨论了三种不同的奖励函数设置效果,通过模型收敛性和有效性的比较,得到综合考虑安全性和通行效率的奖励函数表现最佳,同时也验证了考虑约束对于模型有效性的影响。
本文的研究立足于中国混合交通流环境下智能汽车规划决策行为的实际需求,是对现有方法的进一步完善,研究能够为混杂环境下智能汽车规划决策模型提供创新性的思路及支撑。