基于深度强化学习的智能车驾驶行为决策研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：hwhxl0

【摘要】

：

【作者】

：

罗鹏

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人工智能技术的快速发展,汽车的智能化水平与日俱增,结构化道路作为最常见和最重要的交通场景,是实现自动驾驶典型的应用场景。在自动驾驶技术中,智能车的驾驶行为决策一直是研究的热点和难点,目前主流的决策方法主要基于专家规则,缺少对环境的适应性和泛化性。本文以智能车为研究对象,基于结构化道路交通环境,面向直道、并道以及环岛三种典型场景,针对智能车行为决策的特殊性和环境的多样性,提出了两种基于深度强化学习的智能车驾驶行为决策方法。具体研究内容如下:（1）查阅智能车行为决策和深度强化学习的相关文献,对国内外研究成果进行分析,比较不同方法的优劣,明确本文的研究内容,并选定基于深度强化学习来研究结构化道路下的车辆驾驶行为决策,奠定了后续的研究基础。（2）面向交通仿真问题,本文基于《智能网联汽车自动驾驶功能测试规程》选取直道、并道以及环岛作为研究场景,通过构建仿真环境、设定环境参数和车辆参数,可以验证智能车的车辆跟随、变道超车、匝道合车、驶入环岛以及驶离环岛等方面能力。（3）针对智能车驾驶行为决策模型,本文设计了基于DQN（Deep Q-Learning）的行为决策模型,在交通仿真系统中验证DQN算法在直道、并道以及环岛场景下的训练效果,同时比较了不同奖励值函数对训练结果的影响。（4）针对奖励值函数设计繁琐的问题,本文通过模仿人类驾驶经验,利用生成对抗模仿学习的方法来生成奖励值函数。由于传统的GAIL（Generative Adversarial Imitation Learning）算法的生成器是基于PPO（Proximal Policy Optimization）或TRPO（Trust Region Policy Optimization）设计,主要适用于动作空间连续场景,本文提出DGAIL（DQN Generative Adversarial Imitation Learning）算法,利用DQN算法作为GAIL的生成器,最后在交通仿真系统中进行训练和验证。研究结果表明,对于基于DQN的智能车驾驶行为决策模型,不同的奖励值对最后的结果有着显著的影响,由于奖励值DQN-4包含状态奖励和动作奖励,在仿真场景中实现效果最好。对于基于DGAIL的智能车驾驶行为决策模型,相较于DQN方法两者的训练效果相差不大,采用DGAIL的方法可以省去奖励值函数的设计,同时也保证了训练的有效性,可以实现在结构化道路上的安全、高效地行驶。

其他文献

基于电阻—电抗解耦控制的分布式潮流控制器研究

随着我国环保理念不断深化与“碳中和、碳达峰”的不断推进,新能源得到了大力发展。但随着新能源电源大量并网以及微网系统、电动汽车充电桩等逐渐普及,电力系统运行的安全性与可靠性也面临着巨大的挑战,对现代电网控制技术提出了更高的要求。现有柔性交流输电技术在工程应用方面存在一定的限制,本文结合现代电网架构与实际需求,提出一种基于电阻—电抗解耦的新型分布式潮流控制器（Novel Distributed Pow

学位

现代配电网分布式静止串联补偿器控制技术及仿真研究

随着大量分布式新能源、储存装置、电动汽车等接入配电网,我国配电网正在发生深刻的变化,电能质量方面出现了许多问题,现代配电网的可靠稳定运行面临着较大的挑战。而分布式静止串联补偿器（DSSC）作为分布式柔性交流输电设备（D-FACTS）的一员具有分布式、小型化、模块化等的优点,可适应配电网复杂应用场景,可有效提升现代配电网输电能力、促进新能源消纳、补偿三相不对称等,使配电网的灵活性、可靠性与稳定性得到

学位

基于无迹卡尔曼滤波的动力电池传感器故障诊断研究

随着全球气候变暖、土地沙漠化程度加剧,全球环境正在逐渐恶化,世界各国纷纷将汽车首要发展方向转向电动汽车。动力锂离子电池因具有能量密度大,工作寿命长以及绿色环保等优点成为现在电动汽车电池组的优先选择。由于锂电池的化学特性受环境、温度等因素的影响,其电压、电流、功率等数据都是非线性的,给电池管理系统（BMS）带来了重大挑战,使其难以对其进行准确的故障诊断。BMS需对电池各项实时状态进行检测,以保证电池

学位

基于随机激励的腕关节动态阻抗测量

人类可以根据交互过程实时需要,改变自身关节“软硬程度”,实现稳定的交互控制,关节这种特性被称为动态阻抗。本文以上肢末端的腕关节为研究对象,精确测量腕关节的动态阻抗,有助于揭示人体手腕操作机制,对关节疾病诊断治疗和智能穿戴设备设计,都具有重要意义。相比静态或准静态时关节阻抗测量,动态阻抗测量更加困难。通常用二阶模型表征关节角度与交互力矩之间的动态关系,并采用随机激励去激发关节动态特性,然后通过参数辨

学位

城市道路场景视觉感知神经网络研究

城市道路场景视觉感知算法对于无人驾驶避障至关紧要,然而由于城市道路场景复杂、困难样本极多,现有算法普遍存在分割定位精度低、运行速度慢的问题。为设计出兼具高实时性和精度的视觉感知算法,本文进行了如下研究:首先,搭建了兼具的高实时性和高精度城市道路场景实时视觉感知神经网络架构。优选了Efficient Net-d3作为特征提取模块;引入注意力机制,改进了特征加权融合PA-FPN,并选为特征融合模块;最

学位

基于数据驱动的HVAC系统能耗预测模型及应用研究

随着环境恶化、能源安全和地缘政治问题的日益突出,人们越来越重视可持续发展。根据国际能源署的统计,建筑的能耗已经占到社会总能耗的32%。随着全球城镇化的进一步推进,建筑能耗的占比会越来越高。而现代建筑中暖通风空调（Heating Ventilation and Air Conditioning,HVAC）系统的能耗占比非常高,因此本文研究建筑HVAC系统能耗的预测方法和降低HVAC系统能耗的途径。本

学位

基于脑电信号的人体运动意图研究

随着我国老龄化人口和残疾人数的增多,使得外骨骼机器人具有良好的应用前景。传统的外骨骼机器人的控制方法是通过人体的肌电信号和装在外骨骼机器人上的传感器来实现的,但是对于几乎没有残余的运动能力和肢体残疾的患者来说并不能有效采集到对应肢体的肌电信号,而脑电信号却不受这些因素的限制,由此引申出来对脑电信号模式识别的研究。本文采用了运动想象脑电信号作为研究的数据,实现了对两类的运动想象脑电信号的分类识别,有

学位

网络中观结构对复杂动力学行为的影响及应用研究

进入21世纪以来,以通信、计算机为代表的人工智能的迅猛发展使现代社会加速迈入了智能化时代。如今,通信社交、智能电网等不同领域呈现出网络化趋势,各种各样的网络化复杂系统出现在人们的工作和生活中。研究网络中复杂动力学行为有助于人们清晰地认识动力学的行为特性,有助于科学规划和设计复杂系统。因此,本文基于网络中常见的中观结构,研究了不同动力学的行为特性,揭示了中观结构的变化如何影响动力学的行为。本文的主要

学位

分层式视觉引导下焊接路径自适应规划算法研究

我国制造业正在从劳动密集型向技术密集型转化,推出低成本、高稳定性的智能焊接机器人系统,一方面可使部分焊工从恶劣的环境中解放出来,另一方面也能提高焊接效率和工件品质的一致性,对我国焊接机器人技术发展和积累皆有重要意义。虽然示教型焊接机器人系统得到广泛使用,但在焊接过程中,当工件发生形变时,它只能按照预先设定的焊接路径与参数进行焊接而无法实时纠偏。离线编程型焊接机器人可通过提前规划的路径完成焊接,且焊

学位

面向不平衡和高维医疗数据的分类方法研究与应用

从海量的医疗信息中发现有价值的信息已成为机器学习等领域的热点研究内容,医疗数据分类是其中一项重要技术。现实医疗数据存在不同类别样本数量不平衡的问题,训练的分类模型易偏向多数类（正常人）而忽视蕴含更多价值信息的少数类（疾病患者）。另外医疗数据中的特征维度高且复杂,其中存在大量的无关和冗余特征,将全部特征用于训练分类模型不但会增加计算成本而且会降低分类性能。本文围绕上述两个问题开展研究,主要内容如下:

学位

基于深度强化学习的智能车驾驶行为决策研究

与本文相关的学术论文