基于深度强化学习的自动驾驶混合决策控制研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:tianfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着汽车保有量的飞速增长,交通拥堵,车辆事故等问题日益凸显,而自动驾驶作为提升交通安全与出行效率的重要解决方案,受到了广泛的关注与研究。目前,自动驾驶汽车主要将行为决策、路径规划以及跟踪控制划分为独立模块,各模块则基于规则进行设计。但基于规则的决策算法难以适应存在行人及非机动车的复杂交通环境,而深度强化学习可以实现从感知到动作的端到端控制,为自动驾驶研究提供了一种新的思路。然而,由于神经网络存在黑箱特性,在面对训练中较少出现或未涵盖的情况时,基于深度强化学习的决策控制可靠性难以保证。为提升安全性,本文提出了一种高速公路场景下的基于深度强化学习的自动驾驶混合决策控制算法。本文的主要研究内容如下:首先,对强化学习的数学原理、深度学习的理论基础及深度神经网络、卷积神经网络以及循环神经网络的工作原理进行详细阐述,并深入介绍两大经典深度强化学习算法:深度Q网络算法与深度确定性策略梯度算法。其次,构建汽车运动学模型。针对高速公路场景,采用DDPG算法实现端到端的自动驾驶控制,对相应的状态空间、动作空间及奖励函数进行设计。将Ensemble DDPG算法与Supervised DDPG算法相结合,提出基于Supervised Ensemble DDPG的自动驾驶混合决策控制算法。针对深度强化学习算法在面对训练中较少出现或未涵盖的情况时可靠性不足的问题,利用Ensemble DDPG算法的Q值变异系数对模型不确定性进行量化,并根据不确定性值对混合决策的策略切换条件进行设计,在DDPG算法不确定性较高的情况下通过将车辆控制策略切换至备选策略的方式提升行驶安全。同时,采用Supervised DDPG算法的监督机制对训练过程进行引导,并构建基于IDM算法与MOBIL算法的监督器。再次,构建基于规则的分层式自动驾驶决策控制算法来作为混合决策控制算法的备选策略。利用IDM算法及MOBIL算法来实现纵向加速度的规划以及横向行为的决策,并基于三次多项式曲线进行变道轨迹规划。针对MOBIL算法安全性不足的问题,采用LSTM网络对周围车辆进行轨迹预测,并对变道轨迹的安全性检测方法进行设计。利用模型预测控制算法对规划轨迹进行跟踪,并构建相应的目标函数。最后,基于highway-env仿真平台构建高速公路场景,对所提出的算法进行验证。训练结果表明,Supervised Ensemble DDPG算法在奖励上优于DDPG算法与Ensemble DDPG算法,并取得较Ensemble DDPG算法更快的收敛速度。同时,根据模型不确定性值的训练结果对策略切换条件进行改进设计。在Jetson AGX Xavier模组上开展处理器在环实验,测试结果表明基于Supervised Ensemble DDPG的自动驾驶混合决策控制算法在安全性上优于DDPG算法,可达到接近基于规则的策略的安全性表现并具有更高的行驶效率,同时在陌生情况下可表现出优于DDPG算法的鲁棒性,证明所提出算法可实现安全性与效率的更优平衡。此外,在处理器在环实验中,算法可取得良好的实时性表现。最后,通过实例分析详细阐述基于Supervised Ensemble DDPG的自动驾驶混合决策控制算法的不确定性表征效果、策略切换机制的作用过程以及备选策略的性能表现。
其他文献
出租车为城市居民们提供了快捷便利且定制化的交通运输服务,是城市公共交通系统的重要参与者。然而出租车沿街招揽乘客的经营模式容易导致“人等车、车找人”的双重窘境,造成交通资源浪费。通过一定科学手段引导出租车司机规划巡游路线,有助于改善这种随机巡游的运营状态并提高城市交通效率,因此出租车巡游路线推荐成为了交通领域的研究焦点之一。在可预见的将来,出租车巡游路线推荐技术还能够用于解决无人车行驶路线规划问题,
学位
为解决能源短缺和环境污染问题,汽车电气化已然成为未来的发展趋势。电池作为电动汽车的重要组成部分,其性能直接决定整车的动力性、经济性与安全性。电池温度影响其本身工作寿命、使用性能与热安全性,因此,通过设计合理的冷却系统,使电池在合适的温度区间内工作尤为重要。本文针对某车用动力电池冷却问题,基于相变传热理论设计了微槽型平板热管,并应用数值方法对热管热特性进行仿真分析。在此基础上,针对三并四串电池模组设
学位
高速重载减速器结构复杂,运行环境较恶劣,大多采用喷油润滑,合理高效的润滑方案能减小传动构件的摩擦磨损、发热以及功率损失,进而提高减速器使用性能与寿命。本文结合理论计算与数值模拟,对某高速重载齿轮传动减速器的喷油润滑流场与温度场进行了仿真分析,研究其润滑与热特性,主要研究内容及结论如下:(1)喷油润滑仿真验证与热源计算。分别对高速齿轮与滚动轴承进行了喷油润滑流场仿真,将齿轮啮合区和轴承腔的润滑油流态
学位
多体系统动力学作为力学学科的一个重要分支,其在多个领域与行业中具有广泛的应用,如航空航天、车辆工程、机器人、生物动力学等。在面对多自由度的复杂动力学系统时,通常以基于笛卡尔坐标系的全局公式进行建模,然而该方法在模型求解效率方面存在较大的局限性。为了弥补这个缺陷,西班牙学者Javier García de Jalón提出了一种两步式半递推多体动力学建模方法,基于相对坐标系进行建模求解。该方法在确保数
学位
随着各种交通元素增多,关于行人的事故率相应增加。每年涉及人员伤亡的道路交通事故中因行人横穿道路发生的交通事故占据相当大的比重。辅助驾驶系统和自动驾驶系统一直是近年的研究热点,行人意图预测是研究难点之一。因此,如何快速并且准确预测行人的意图显得尤为重要。目前大部分研究一般是针对单个行人进行意图预测。当行人数量变多时,意图预测计算量相应增大,响应时间变长,这对分秒必争的交通场景影响非常大。因此,行人意
学位
现阶段,我国新能源汽车实现了高质量发展,产业竞争力逐年提高,2020年综合竞争力排名位居第三。然而,在我国新能源汽车高速发展的背后,仍面临诸多难题。新冠疫情、地缘政治及地区冲突的不断加剧,使得世界汽车产业链危机不断显现,如汽车芯片供应问题越发凸显、部分重要原料价格大幅上涨、关键零部件供应短缺越发严峻等。关键零部件供应作为新能源汽车供应链的重要环节,受较多不确定性因素影响、存在许多不确定风险,在国际
学位
在碳达峰、碳中和的大背景下,电动汽车得到了全球各个国家和各行各业的支持,发展势头十分迅猛。但电动汽车的续驶里程是有限的,如何在有限的电池容量下,通过优化电动汽车各耗能子系统的能耗,来延长电动汽车的续驶里程,是电动汽车制造商试图克服的主要挑战之一。电动汽车热管理系统作为能耗大户,其终极目标是在保证热管理系统性能的同时降低能耗。本文围绕电动汽车空调系统及其控制策略和电池建模及基于热泵空调系统的电池低温
学位
在智能化与数字化的浪潮中,中小型制造企业在知识管理过程中面临若干挑战。一是制造业中的知识是高度经验化并以关键员工为载体的,而员工却又是高度流动的,由此会带来企业知识流失和员工难以快速吸收知识等问题;二是制造业中多源、异构、动态的制造数据对其知识管理手段提出了更高的要求,如何实现信息化、数字化与知识管理的有机融合,将制造生产数据转化为知识,并将这些知识进一步转化为价值是一个亟待解决的问题。本文以中小
学位
为了应对日益严峻的能源危机和环境问题,搭载动力电池的电动汽车逐渐走上了历史的舞台。然而电动汽车中动力电池的性能很大程度上受到当前温度的影响,为了发挥其最佳性能需要对其温度进行管理。与此同时,电动汽车中乘客的驾乘体验往往受到车内温度及二氧化碳浓度的影响。在这种情况下,本文建立了针对电动汽车的动力电池-乘员舱协同热管理模型,并制定了相应的控制策略。首先,本文基于某款50Ah方块锂离子电池建立了相应的电
学位
汽车的NVH性能直接影响驾乘人员的乘坐舒适性,成为评价汽车性能的重要指标之一。组成车身的薄壁板件在外界激励下很容易引起振动而向车内辐射结构噪声,对其进行自由阻尼处理,可以有效抑制板件的局部振动,因处理方式相对简单,从而得到广泛应用。但是在理论仿真分析时通常凭借经验对阻尼参数进行取值,缺少阻尼材料的参数特性;另外敷设阻尼材料增加了重量和生产成本,因此需要考虑阻尼材料分布的问题。针对阻尼材料在车身类结
学位