论文部分内容阅读
随着计算机运算性能的持续提升,人工智能得到了极大发展,在很多领域的应用中表现不俗。智能车是目前车辆发展的方向,而决策控制是其最重要的关键技术之一,实现智能车的普及,必须解决其决策控制问题。在智能车决策控制领域中,深度强化学习(DRL)相比较于传统的基于规则的方法具有很多优点,基于规则的决策控制策略制定相当繁琐,并且难以考虑复杂驾驶环境中的所有问题,因此其适应性差,而DRL算法可以避免这些问题。本文将DRL算法应用于智能车技术研究,旨在解决智能车在连续动作空间的决策控制问题。首先设计了可以应用于智能车决策控制领域的经验分类深度确定性策略梯度(ECDDPG)算法。分析人类在驾驶过程中如何对当前驾驶环境进行决策,并比较其与DRL算法在决策表现中的异同性。基于深度确定性策略梯度(DDPG)的算法框架,针对其训练过程不稳定,训练时间长,收敛速度慢的缺点,进行了相关改进。引入了车辆动力学模型,用于判断智能体在与环境交互过程中产生样本的合理性。对经验回放池进行了分类,分别存放不同种类的经验样本,智能体也会从中学习,学习后的策略会避免产生不合理的和危险的动作。对产生的经验样本进行优先级排序,优先学习质量高的经验,提高学习效率,并且对于重复学习的样本,降低其优先性,避免策略陷入局部最优。提出了在复杂环境下的分层决策控制方法,以超车工况为例,对基于DQN的驾驶动作决策模块进行相应的建模。其次对比了多种可以用于验证DRL算法的驾驶仿真平台,分析对比各种软件的特点,最终选取TORCS软件作为本文的仿真环境。对TORCS软件的使用,通讯方法,接口设计,传感器设置,以及对车辆操作的动作指令进行了详细说明。提出了DRL算法和软件仿真的系统架构。对仿真平台的搭建和算法的设计进行了详细说明,包括仿真的硬件和软件环境,神经网络的设计,奖励函数的设计。详细分析了仿真任务的环境数据信息,提出了多个指标项累积的奖励函数形式,智能体会通过极大化奖励函数值的方式来采取动作。最后对实验结果进行了相关分析。ECDDPG的回合平均回报值在训练过程中较DDPG算法上升更稳定,并且收敛速度更快。本文设计的ECDDPG算法相较于原始DDPG算法效率提升约27%。分析了所提出算法的泛化性能,通过将跑道环境更换为没有训练过的环境,算法控制车辆跑完了全程,说明算法的泛化性良好。在策略的控制作用下,安全完成了超车。结果表明,文中所设计的算法可以应用于智能车的决策控制。