基于深度强化学习的自动驾驶控制决策研究

来源 :东北石油大学 | 被引量 : 1次 | 上传用户:simon_186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着汽车的普及以及工业互联网、5G等技术飞速的发展,自动驾驶技术的研究越来越炙手可热,实现自动驾驶的核心即为根据当前车辆状态迅速做出正确的决策,而深度强化学习(Deep Reinforcement Learning,DRL)正是由智能体与环境交互,反馈获得奖励,再做出下一步的动作决策,循环往复,最终实现自主决策的目标。本文将深度强化学习算法应用于自动驾驶控制决策的研究中,并用TORCS仿真平台对改进的深度强化学习算法进行验证。主要工作如下:首先针对近端策略优化算法(Proximal Policy Optimization,PPO)在训练时稳定性差以及难以收敛等缺陷。本文分析了自适应散度的(KL-PPO)算法中由于KL散度其不对称性从而影响了KL-PPO策略更新的稳定性。为了解决这种不对称性所带来的负面影响,提出一种基于相关熵诱导度量的近端策略优化算法(Correntropy Induced Metric,CIM-PPO)。通过相关熵理论的度量方法,更加能够表征新旧策略的差异,从而更为准确的进行策略更新,进而改善了不对称性带来的影响。然后针对PPO算法在训练过程中对经验回放体中的经验样本是随机采样的,存在收敛速度慢等缺陷。本文研究了经验回放以及优先级轨迹回放,重新设计基于奖励的优先级运算。同时为了防止过高的方差,提出了具有截断的重要性采样的优先级轨迹回放机制(Prioritized Trajectory Replay,PTR)改进CIM-PPO算法。为了加快获取更多组的轨迹经验,采用Learner-Actor架构,并行与多组环境进行交互,加快历史经验的采样效率。该算法通过采样优先级高的轨迹经验学习从而提高收敛速度,并用Open AI平台的多个实验以及多种对比算法进行实验,测试改进后算法的有效性。最后,将改进的深度强化学习算法应用在自动驾驶控制决策任务的车道保持任务中,用TORCS仿真环境进行实验。通过对实验结果的各个指标进行分析,验证了上述改进算法在自动驾驶控制决策车辆保持任务中的有效性。
其他文献
滚动轴承是旋转机械设备的重要组成部位,在实际工作过程很容易发生故障。滚动轴承一旦发生故障将直接影响工业生产的效率和产品质量,并且很有可能带来财产损失甚至造成人员伤亡。因此,对滚动轴承的运转状态进行监测,在轴承故障发生的初期发现其异常情况,并进行故障诊断与设备维修能够极大的减少工业生产中事故的发生。滚动轴承在工作过程中会产生大量能够反应轴承运转状态信息的振动信号。但是由于工作环境的恶劣和设备中其他部
学位
疫情防控期间,网络直播教学首次大规模、成建制、高并发地出现在公众视野,相关教学实践和学术研究不断涌现。梳理了网络直播教学的本质、价值意蕴和已有教学模式研究,从教学模式的三大支柱——教育思想及理论、教学活动关系与进程、教学环境及支持出发搭建了网络直播教学模式的“三层七维度分析框架”,并据此构建纯线上型高校网络直播教学模式,以期促进网络直播教学模式理论研究与实践教学的持续完善。
期刊
6-DOF轴耦合式路面模拟试验台是目前最典型的汽车疲劳试验设备,能够对车轮进行六个方向的力或力矩,并通过模拟车辆在行驶过程中所承受的力,准确地反映出车辆的多向应力状态,达到模拟试验的要求。由于车体-轴系耦合实验平台是一个非线性耦合的系统,其各个通道之间的耦合特性对其性能有很大的影响,因此给控制带来了困难。本文对轴力耦合试验中的耦合问题进行了研究。首先,介绍了轴耦合道路模拟试验系统的设计指标、系统组
学位
伴随着“新基建”上升为国家战略,人工智能基础设施建设正在加快步伐,各行各业都在和AI相结合,加速实现企业的智能化转型。自然语言处理作为人工智能技术的基础,将其与合同文本相结合实现办公自动化可以达到合同智能审查的目的。本文主要研究合同文本的命名实体识别任务,结合合同文本的特殊性,重点研究基于深度学习和词汇增强的合同文本命名实体识别,主要研究内容如下:(1)针对目前合同文本命名实体识别的研究中,缺乏高
学位
液压技术在传动与控制方面有重要作用。计算机技术和微电子技术等的发展,促进了液压技术的进一步发展。液压阀在液压系统中起控制压力和流量的作用,是影响液压系统性能的关键元件。二维阀是一种新型的液压阀,利用滑阀的两个自由度,在同一个阀芯上实现了先导级和主阀的功能,具有性能稳定、抗污染能力强、结构简单等优点。本文以三位四通二维阀为研究对象。首先,研究了稳态温度场和累积的瞬态温度场。温度会引起液压油粘度的变化
学位
复杂网络控制是近几年复杂网络研究的一个热点问题。在过去的复杂网络控制研究中,若存在一组适当的控制信号可以在有限时间内驱动系统达到指定的最终状态,从而控制整个网络,则该网络被认为是可控的,符合可控性理论的要求,并将最少驱动节点数量视作控制成本。计算复杂网络可控性需要精确的网络模型,但大型复杂网络系统建模困难,很难准确搭建符合网络可控性研究所需要的精准模型。因此,如何从复杂网络系统中获取可用的数据并实
学位
潜射导弹是是战略核武器的重要组成部分,具有隐蔽性、机动性好,生存能力强,便于实施战术突击的特点,而变深度发射又是潜射导弹的先进发射技术,常见的一种方法是采用燃气-蒸汽式发射,本论文将对该发射方式进行研究,并设计研制变深度发射能量调节半实物仿真验证系统以供海军工程大学学员教学使用。首先,对整个发射过程建立数学模型,利用热力学第一定律,马丁-侯状态方程,牛顿第二定律分别列写内弹道的能量方程、状态方程和
学位
人体姿态估计旨在从图像和视频中检测人体关键点,以此实现对图像中的人类活动的理解和人体姿态识别。使用堆叠沙漏网络进行重复自底向上和自顶向下的采样过程,能够获取到不同尺度的图像特征,进而完成2D人体姿态估计任务。在此基础上,使用图卷积算法与堆叠沙漏网络相结合,可实现对人体骨架的重建,以得到3D人体姿态。然而,在深度模型中,对特征图的下采样-上采样过程中,面临着多尺度信息利用不足和识别的三维关键点与实际
学位
人工光合成装置是一种利用微流控芯片研制的针对二氧化碳转换和氧气制备问题的光合作用反应装置,其利用光能催化二氧化碳与水生成氧气的光合反应过程,为了能够保证微流控芯片中的正常反应,并在较低温度条件下实现高效的能量和物质转换,需要控制进入微流控芯片的液体驱动;本文提出一种基于压电控制气体的流量比例控制微阀,结合压电陶瓷的体积小、响应快、分辨率高、输出力大、功耗低等优点,以实现流体控制微阀流量的连续输出、
学位
外骨骼与人体下肢进行实时交互时,人体下肢的刚度在不断发生变化,采用传统的基于关节力矩或者是位置控制算法的刚性作动器无法很好复现与环境交互的动力学规律,实际行走表现为机械僵硬并不流畅。而从仿生学的角度出发,基于人体下肢拮抗肌肉刚度和力矩变化特性,采取能够分离力矩曲线和刚度曲线的仿生变刚度柔性驱动器,能够提高与人体在动态交互过程中人机协调性能,进一步改善助力效果。本课题内容为下肢髋关节变刚度助力驱动器
学位