论文部分内容阅读
随着智能交通体系的不断发展,现代社会对交通的功能和效率提出了越来越高的要求。然而,由于交通环境的复杂多变性,参与者的行为意图的不可控性等原因,合理的规划交通,实现车辆的全自动驾驶必然随之成为一个难点。现代交通对于经济发展,社会进步的重要性不言而喻,因此世界范围的广泛学者对自动驾驶问题展开了深入研究,他们的科学探索也获得了资金和社会各界人士的支持。为了解决这一难题,科研学者提出了多种控制策略,大体上可以分为传统的,基于规则的控制方法,和近几年十分火热的人工智能方法。传统的控制策略基于规则设计,注重原理的可解释性,但有时会将简单的问题复杂化,不可避免地带来过约束问题,在目前的应用中面临着许多困难与挑战。换言之,传统的方法很难应用于复杂的场景中,而这些场景是自动驾驶所必需的。将深度强化学习方法应用于这一领域中可以很好地解决这一问题,其在解决贯序决策问题上表现出优异的性能,且利于应用在复杂场景中,其基本原理类似小孩学步,能够使不懂得复杂原理的孩子完成较复杂的控制过程。因此,深度强化学习方法正越来越广泛地应用在车辆控制,尤其是自动驾驶领域。本文就是利用该算法,来解决半挂式车辆在直道和弯道中的自适应巡航问题,期间一并考虑了车辆的行驶稳定性。本文可以具体可分为如下几个部分:1.重型半挂车载荷模型构建与优化。将三轴半挂车分段,分离两部分的断裂点,也是牵引车尾部所在的位置,分段方式为垂直断开,使第一部分具有牵引车的整体和半挂车的前端,第二部分的主体为半挂车的中后端,这避免了力学分析中常见的过约束的问题。细节分析每一段的力学变化,将载荷的变化过程分为静态载荷和动态载荷,先计算出第二段,也就是挂车后轴的载荷,然后推导出第一段中牵引车前后轴的载荷值。以LTR值为判断依据,决定车辆是否即将发生危险,危险趋势是否明显。考虑到牵引车部分和挂车部分对侧倾的敏感度不同,因此需要依据不同的阈值来判断该过程。因为该模型中需要的质心位置参数不易获得,且会伴随车辆的运动过程有微小的变化,所以需要通过参数辨识来获得一个较准确的值来提高运算精度,获得更准确的载荷值。本文选用的滤波方法为容积无穷卡尔曼滤波,首先对半挂车辆进行动力学分析,建立了其运动方程表达式和驱动表达式,然后根据这些方程来表示质心位置的参量。再依据Truck Sim中较为精确的质心状态值做参考,通过计算得出来较精确的、稳定收敛的半挂车质心高度及质心距第一轴的水平距离。在超参数的调节过程中,根据经验对传感器的噪声和质心推导方程的噪声进行了估计。考虑到该载荷模型的力学分析过程较为简单,容易存在一定程度上的系统误差,本文针对该模型的特点进行了半经验修正。修正的主要依据是半挂车后半部分的放大作用导致车辆后两轴的载荷误差较大。半挂车辆的悬架阻尼和刚度特性对车辆垂直载荷力引起的变化比较复杂。因此,采用分段的方式,用数值的相对大小进行比较来说明防侧倾稳定杆产生的力过大或过小,以此为依据来调节防侧倾稳定杆产生的力来对后两轴进行载荷补偿。同时,为了使载荷的拟合效果更好,本文还引用了牵引车部分、挂车部分的侧倾角和侧倾角加速度进行四次多项式拟合,来使该三轴半挂车载荷模型的精度几乎接近于仿真软件中的数值。2.车辆-场景仿真环境的构建。不同驾驶风格的驾驶员,对于车辆的期望加速度和横摆角速度都是不同的,因此他们的动作空间范围是不同的。通过多维度驾驶风格量表,区分了三种典型风格的驾驶员。通过驾驶员信息采集和理论推导,进行了动作空间和状态空间的缩放,这加快了智能体的训练速度,并初步构建了DDPG网络结构。结合具体的控制要求,实现状态空间的缩减。在保留特征的前提下,去掉了相关性不强的状态部分,间接加速了强化学习网络的过程。将两个智能体分开训练,分别讨论了纵向控制和侧向控制不同的状态空间,并说明了本文车道线识别的原理和安全距离模型的引用。将两个智能体分开训练,分别讨论了纵向控制和侧向控制不同的状态空间,并说明了本文车道线识别的原理和安全距离模型的引用。针对训练目标与要求,设计了合理的训练车道,本文选择的车道包括适当长度的直线道路和一些中等曲率的曲线道路,这更有利于DRL算法的验证。3.基于深度强化学习的自适应巡航算法。阐述了在ACC条件下基于控制目标的三轴半挂车辆奖励函数的设计理念与实际应用,并建立了DDPG网络的更新功能。对于设定的行驶工况,增强式ACC的控制目标主要包括四点:(1)重型半挂车辆能在直线车道上实现车道保持;(2)在弯曲道路上和考虑稳定性的前提下实现转弯;(3)在前方出现障碍车辆时跟随行驶;(4)没有障碍车辆时按照设定的车速行驶。控制方式主要通过更新DDPG网络中的参数实现,即当输入一个状态时,智能体会相应地输出一个本时刻的最佳动作用来实现控制目标。根据本文的控制目标,设定奖励函数,使车辆追求最佳奖励,通过该方式来实现控制过程。为了加速智能体的训练过程,本文一共做了四部分处理:第一部分,通过在三轴半挂车实验台架上采集驾驶员的驾驶信息,缩小了动作空间的取值范围,直接减小了智能体随机探索到不合理动作空间的可能性。第二部分,对状态空间进行了缩放,这主要是由于状态空间各个维度之间的关系导致状态的很大一部分根本不出现。某些状态之间存在很强的相关性,状态特征并不明显。该过程减少了输入量的取值范围,也属于直接降低了训练的复杂程度。第三部分,本文将一个输出二维动作的智能体,拆分为两个输出一维动作的智能体单独训练,即当训练完第一个智能体后,将深度神经网络中的参数储存,导入第二个训练环境对第二个智能体继续进行训练,完成上述训练过程后的智能体用于后续的实验验证过程。第四部分,在更新过程,在DDPG网络更改了靠后阶段的训练过程中的样本池容量,即在训练前期,在样本池抽取较小容量的样本,此时各状态之间的关联性较强,且有较大可能是无用的探索,而在训练后期,智能体已经学会了较好的探索,此时更多的探索较为有效,这个时候扩大样本空间可以提高更新和学习的效率。在强化学习算法中,智能体的控制目标被抽象地表示成一种特殊信号,称为奖励。它通过环境带来的信息传递给算法和智能体。一般地,智能体的控制目标是最大化它能得到的总的奖励。因此,我们建立的奖励函数对于真正实现我们的目标就变得十分重要。在强化学习算法的框架下,智能体只能根据奖励函数的定义来学习如何与环境进行交互,因此奖励函数的设计直接决定了智能体的控制效果。奖励函数需要定义不同行驶条件下相应行为的奖惩,但很少有人从车辆系统动力学的角度来考虑车辆的稳定性。本文基于三轴半挂车的载荷转移模型,进行了稳定性分析,综合考虑了基于行驶效率、行驶安全性和行驶稳定性等奖励因素。为了实现三轴半挂车在直线道路和弯曲道路自适应巡航的控制目标设计了奖励函数的如下各项:(1)距离偏差惩罚项(2)速度奖励和超速惩罚项(3)方向盘大转角惩罚项(4)侧倾稳定性惩罚项(5)动态安全距离惩罚项(6)终止惩罚项。基于以往的相关经验和试验,本文根据要求设计了奖励函数,这些项基本覆盖并实现了车辆的控制目标,为了验证该算法的控制效果,进行了更加准确的验证过程。4.半挂式车辆自适应巡航控制策略实验验证。对控制目标的实验结果进行了分析和整理。通过改变环境试验,即在障碍车恒定高车速、恒定低车速、变车速的不同条件下,验证了基于DDPG的重型车辆决策策略的优越性,证明了无论是车道保持,与前车的安全距离,高速过弯时的侧倾稳定性都有良好的控制效果。