基于深度强化学习的半挂式车辆自适应巡航控制研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:maye626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能交通体系的不断发展,现代社会对交通的功能和效率提出了越来越高的要求。然而,由于交通环境的复杂多变性,参与者的行为意图的不可控性等原因,合理的规划交通,实现车辆的全自动驾驶必然随之成为一个难点。现代交通对于经济发展,社会进步的重要性不言而喻,因此世界范围的广泛学者对自动驾驶问题展开了深入研究,他们的科学探索也获得了资金和社会各界人士的支持。为了解决这一难题,科研学者提出了多种控制策略,大体上可以分为传统的,基于规则的控制方法,和近几年十分火热的人工智能方法。传统的控制策略基于规则设计,注重原理的可解释性,但有时会将简单的问题复杂化,不可避免地带来过约束问题,在目前的应用中面临着许多困难与挑战。换言之,传统的方法很难应用于复杂的场景中,而这些场景是自动驾驶所必需的。将深度强化学习方法应用于这一领域中可以很好地解决这一问题,其在解决贯序决策问题上表现出优异的性能,且利于应用在复杂场景中,其基本原理类似小孩学步,能够使不懂得复杂原理的孩子完成较复杂的控制过程。因此,深度强化学习方法正越来越广泛地应用在车辆控制,尤其是自动驾驶领域。本文就是利用该算法,来解决半挂式车辆在直道和弯道中的自适应巡航问题,期间一并考虑了车辆的行驶稳定性。本文可以具体可分为如下几个部分:1.重型半挂车载荷模型构建与优化。将三轴半挂车分段,分离两部分的断裂点,也是牵引车尾部所在的位置,分段方式为垂直断开,使第一部分具有牵引车的整体和半挂车的前端,第二部分的主体为半挂车的中后端,这避免了力学分析中常见的过约束的问题。细节分析每一段的力学变化,将载荷的变化过程分为静态载荷和动态载荷,先计算出第二段,也就是挂车后轴的载荷,然后推导出第一段中牵引车前后轴的载荷值。以LTR值为判断依据,决定车辆是否即将发生危险,危险趋势是否明显。考虑到牵引车部分和挂车部分对侧倾的敏感度不同,因此需要依据不同的阈值来判断该过程。因为该模型中需要的质心位置参数不易获得,且会伴随车辆的运动过程有微小的变化,所以需要通过参数辨识来获得一个较准确的值来提高运算精度,获得更准确的载荷值。本文选用的滤波方法为容积无穷卡尔曼滤波,首先对半挂车辆进行动力学分析,建立了其运动方程表达式和驱动表达式,然后根据这些方程来表示质心位置的参量。再依据Truck Sim中较为精确的质心状态值做参考,通过计算得出来较精确的、稳定收敛的半挂车质心高度及质心距第一轴的水平距离。在超参数的调节过程中,根据经验对传感器的噪声和质心推导方程的噪声进行了估计。考虑到该载荷模型的力学分析过程较为简单,容易存在一定程度上的系统误差,本文针对该模型的特点进行了半经验修正。修正的主要依据是半挂车后半部分的放大作用导致车辆后两轴的载荷误差较大。半挂车辆的悬架阻尼和刚度特性对车辆垂直载荷力引起的变化比较复杂。因此,采用分段的方式,用数值的相对大小进行比较来说明防侧倾稳定杆产生的力过大或过小,以此为依据来调节防侧倾稳定杆产生的力来对后两轴进行载荷补偿。同时,为了使载荷的拟合效果更好,本文还引用了牵引车部分、挂车部分的侧倾角和侧倾角加速度进行四次多项式拟合,来使该三轴半挂车载荷模型的精度几乎接近于仿真软件中的数值。2.车辆-场景仿真环境的构建。不同驾驶风格的驾驶员,对于车辆的期望加速度和横摆角速度都是不同的,因此他们的动作空间范围是不同的。通过多维度驾驶风格量表,区分了三种典型风格的驾驶员。通过驾驶员信息采集和理论推导,进行了动作空间和状态空间的缩放,这加快了智能体的训练速度,并初步构建了DDPG网络结构。结合具体的控制要求,实现状态空间的缩减。在保留特征的前提下,去掉了相关性不强的状态部分,间接加速了强化学习网络的过程。将两个智能体分开训练,分别讨论了纵向控制和侧向控制不同的状态空间,并说明了本文车道线识别的原理和安全距离模型的引用。将两个智能体分开训练,分别讨论了纵向控制和侧向控制不同的状态空间,并说明了本文车道线识别的原理和安全距离模型的引用。针对训练目标与要求,设计了合理的训练车道,本文选择的车道包括适当长度的直线道路和一些中等曲率的曲线道路,这更有利于DRL算法的验证。3.基于深度强化学习的自适应巡航算法。阐述了在ACC条件下基于控制目标的三轴半挂车辆奖励函数的设计理念与实际应用,并建立了DDPG网络的更新功能。对于设定的行驶工况,增强式ACC的控制目标主要包括四点:(1)重型半挂车辆能在直线车道上实现车道保持;(2)在弯曲道路上和考虑稳定性的前提下实现转弯;(3)在前方出现障碍车辆时跟随行驶;(4)没有障碍车辆时按照设定的车速行驶。控制方式主要通过更新DDPG网络中的参数实现,即当输入一个状态时,智能体会相应地输出一个本时刻的最佳动作用来实现控制目标。根据本文的控制目标,设定奖励函数,使车辆追求最佳奖励,通过该方式来实现控制过程。为了加速智能体的训练过程,本文一共做了四部分处理:第一部分,通过在三轴半挂车实验台架上采集驾驶员的驾驶信息,缩小了动作空间的取值范围,直接减小了智能体随机探索到不合理动作空间的可能性。第二部分,对状态空间进行了缩放,这主要是由于状态空间各个维度之间的关系导致状态的很大一部分根本不出现。某些状态之间存在很强的相关性,状态特征并不明显。该过程减少了输入量的取值范围,也属于直接降低了训练的复杂程度。第三部分,本文将一个输出二维动作的智能体,拆分为两个输出一维动作的智能体单独训练,即当训练完第一个智能体后,将深度神经网络中的参数储存,导入第二个训练环境对第二个智能体继续进行训练,完成上述训练过程后的智能体用于后续的实验验证过程。第四部分,在更新过程,在DDPG网络更改了靠后阶段的训练过程中的样本池容量,即在训练前期,在样本池抽取较小容量的样本,此时各状态之间的关联性较强,且有较大可能是无用的探索,而在训练后期,智能体已经学会了较好的探索,此时更多的探索较为有效,这个时候扩大样本空间可以提高更新和学习的效率。在强化学习算法中,智能体的控制目标被抽象地表示成一种特殊信号,称为奖励。它通过环境带来的信息传递给算法和智能体。一般地,智能体的控制目标是最大化它能得到的总的奖励。因此,我们建立的奖励函数对于真正实现我们的目标就变得十分重要。在强化学习算法的框架下,智能体只能根据奖励函数的定义来学习如何与环境进行交互,因此奖励函数的设计直接决定了智能体的控制效果。奖励函数需要定义不同行驶条件下相应行为的奖惩,但很少有人从车辆系统动力学的角度来考虑车辆的稳定性。本文基于三轴半挂车的载荷转移模型,进行了稳定性分析,综合考虑了基于行驶效率、行驶安全性和行驶稳定性等奖励因素。为了实现三轴半挂车在直线道路和弯曲道路自适应巡航的控制目标设计了奖励函数的如下各项:(1)距离偏差惩罚项(2)速度奖励和超速惩罚项(3)方向盘大转角惩罚项(4)侧倾稳定性惩罚项(5)动态安全距离惩罚项(6)终止惩罚项。基于以往的相关经验和试验,本文根据要求设计了奖励函数,这些项基本覆盖并实现了车辆的控制目标,为了验证该算法的控制效果,进行了更加准确的验证过程。4.半挂式车辆自适应巡航控制策略实验验证。对控制目标的实验结果进行了分析和整理。通过改变环境试验,即在障碍车恒定高车速、恒定低车速、变车速的不同条件下,验证了基于DDPG的重型车辆决策策略的优越性,证明了无论是车道保持,与前车的安全距离,高速过弯时的侧倾稳定性都有良好的控制效果。
其他文献
后进生转化工作,对整个班级的稳定与发展起着重大作用,是构建和谐班级、推进素质教育不可或缺的重要组成部分。笔者认为,可以从以下几个方面着手进行后进生的转化工作。大力开展目标引领行为教育。目标可以引领行为的养成,在实践中,笔者通过主题班会的形式引导学生树立成长目标。例如,召开“我的理想树”“我的角色我知道,我的责任我承担”等主题班会。在这里,最核心的是围绕“中国梦,我的梦”确立全体学生系列成长目
期刊
目的 探讨针灸疗法对面神经炎患者的疗效及神经功能改善效果。方法 82例面神经炎患者根据治疗方法不同分为观察组(行针灸疗法)与对照组(行常规药物治疗)各41例。比较2组患者治疗效果、神经功能改善及睡眠质量情况等。结果 观察组有效率明显高于对照组(P<0.05)。2组患者治疗后面神经功能、睡眠质量显著改善(P<0.05),随着治疗时间推移,观察组改善效果越显著,且优于对照组(P<0.05)。治疗后,观
随着我国汽车行业的发展和人民生活水平的提高,消费者的购车理念日益成熟,人们日益关注汽车的乘坐舒适性,车内噪声的大小是评价乘坐舒适性的一个重要指标。在汽车行驶过程中由于换气、除雾等需要,打开车窗时会产生低频率高强度的风振噪声,风振噪声极易使驾乘人员产生不适感,严重影响乘坐舒适性及行车安全性,因此研究风振噪声的生成机理、探究风振噪声的影响因素以及对汽车风振噪声进行控制具有非常重要的意义。本文从一般性模
轮胎由多种胶料与复合材料组成,在高速滚动时,由于橡胶材料具有粘弹性,而且轮胎与路面之间会相互摩擦,所以势必会造成轮胎各部分产生大量的热。累计在轮胎上的部分热量,不能够及时的消散,会导致轮胎温度的升高。轮胎温度的升高会造成各部分胶料的抗拉强度、疲劳强度和剪切强度等物理力学性能变差,这是导致轮胎疲劳损坏与耐久性降低的重要原因,所以建立能够表示轮胎温度的热模型有十分重要的意义。国内外关于轮胎热模型的建立
目的:观察宣通汤联合阿昔洛韦治疗面神经炎的临床效果。方法:选取2020年1月—2021年4月我院收治的40例面神经炎患者作为研究对象,采用随机数表法分为参照组和宣通汤组,每组20例。参照组采用阿昔洛韦治疗,宣通汤组则采用宣通汤联合阿昔洛韦,观察对比两组的临床治疗效果。结果:宣通汤组的总有效率(95.00%,19/20)高于参照组(70.00%,14/20),差异具有统计学意义(P<0.05)。结论
智能汽车行人避撞系统是一种基于智能传感信息的旨在避免或减轻车辆对于行人伤害的高级驾驶辅助系统(Advanced Driving Assistance System,ADAS)。传统道路测试对于复杂工况难以复现,相机在环测试可以通过嵌入真实的相机硬件和构建虚拟场景弥补这种不足。因此搭建相机在环测试平台对相机成像影响因素进行深入研究,并以此为基础构建虚拟测试场景,探寻加速测试方法,对基于视觉信息的智能
玄武岩纤维增强复合材料是一种很有前途的新型复合材料,具有高强度、高模量、断裂韧性高、耐腐蚀性和阻燃性等特点,在航空航天和汽车应用中具有很大的潜力。编织纤维结构可以改善纤维复合材料层间和层内强度,提高纤维复合材料的抗分层能力。纤维复合材料在受到动态载荷时,会存在明显的应变率效应。由于复合材料之间性能存在差异,因此其对应变率敏感程度也各不相同。针对复合材料的低速冲击仿真,使用的参数大多是材料的准静态性
随着科技的进步,汽车行业提出了电动汽车、轻型汽车、智能网联汽车的发展趋势,而汽车车身上传统的电磁执行器质量大、体积大、噪声大等缺点日益凸显,与新时代汽车的发展理念相悖。形状记忆合金是一种新型材料,而以形状记忆合金材料作为执行元件的执行器具备结构小巧、无冲击噪声、无电磁干扰等优点,可以用来替代汽车上的传统电磁执行器从而改善上述缺点,具备着着良好的发展前景。形状记忆合金由于独特的材料成分,使其相比于普
二十一世纪的今天,汽车已经融入到了人们的日常生活中,成了不可或缺的交通工具。作为车辆和行驶路面接触的唯一部件,轮胎的性能决定着整车的性能表现,当轮胎充气压力不足时,会导致车辆行驶阻力增大,油耗升高,甚至导致爆胎,对驾乘人员的人身安全产生极大威胁。因此,实时监测轮胎压力状态,在胎压状态发生异常时警示驾驶员,对提高驾乘安全性和行驶经济性有重要意义。胎压监测系统(TPMS)正是为了解决上述问题而生的,它
燃料电池汽车相比于传统燃油汽车、纯电动汽车,具有无污染、零排放、燃料加注时间短、续驶里程长等优势,具有良好的应用前景。当前燃料电池系统的动态响应较慢,启动时间较长,在汽车起步、急加速、高速、爬坡等工况下对整车的性能有较大影响,从而影响驾驶员的驾驶感受,即影响驾驶性。因此研究驾驶性建模与仿真方法是燃料电池汽车集成匹配方法研究的重要内容。经调研,对燃料电池汽车整车性能的研究大多集中在动力性、经济性的建