基于深度强化学习的智能车自主驾驶策略研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：sqe622

【摘要】

：

【作者】

：

景艳枰

【出处】

：

北京工业大学

【发表日期】

：

2020年01期

【关键词】

：

深度强化学习自主驾驶神经网络 SUMO

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自主驾驶是提高交通路网通行效率以及提高驾驶安全最具有潜力的解决方案,许多公司和研究人员对自主驾驶领域所涉及的技术进行了大量的研究,有关于驾驶策略的学习则是重中之重。传统的关于驾驶策略的学习方法是通过人类经验或者对车辆、道路建立数学模型,可以处理简单的交通场景,面对复杂的交通环境却无能为力,而且模型泛化能力较弱。随着深度学习和强化学习在各个领域取得的突出成绩,研究人员开始考虑将其应用至车辆的自主驾驶策略中。因此本文主要对智能车的自主驾驶决策系统进行研究,通过无模型、自学习的深度强化学习算法中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法使智能车学会自主驾驶,利用智能车学习到的自主驾驶策略调控路网中的交通流状态达到期望的交通流稳定状态,保证路网中车辆的平均速度最大化,从而提高交通路网的通行效率。自主驾驶决策控制器将智能车与交通场景互动感知到的环境信息作为输入,控制器根据感知到的交通环境做出驾驶决策,用奖励值函数评判驾驶行为的优劣,进而将结果反馈至神经网络,通过不断的更新神经网络参数值直至智能车学习到优秀的驾驶策略。首先,对机器学习领域的深度学习方法和强化学习方法进行了分析,从而选用了DDPG算法作为智能车自主驾驶策略学习的算法。采用马尔可夫决策过程设计了智能车自主驾驶决策控制器的状态空间,选用车辆两个方面的信息作为驾驶策略的输入;通过分析车辆的驾驶行为设计了自主驾驶决策控制器的动作空间,为了避免车辆油门踏板和刹车踏板的冲突,设置了加速度区间作为驾驶策略的输出;通过考虑车辆的平均速度、跟车间距、路口等待时间等量化指标设计了驾驶策略的奖惩机制。其次,研究了DDPG算法应用至自主驾驶策略中的理论实现过程,将深度学习中的人工神经网络作为驾驶决策控制器。在控制器学习驾驶策略的过程中,采用了经验回放机制,降低了训练样本之间的相关性。同时在对模型的策略梯度进行计算时,采用mini-batch方法来提升训练速度,避免了车辆控制器学习到局部最优策略。最后,在SUMO交通仿真平台中搭建环形道路场景和路口场景实现智能车自主驾驶决策的仿真实验。首先介绍了交通仿真平台SUMO以及实验中所需要的强化学习平台;然后在SUMO交通仿真平台中部署环形道路和路口交通场景,设计了车辆控制器结构以及信号灯相位;最后对实验所获得的数据进行处理,通过奖励值、车辆的位置、平均速度以及等待时间等量化指标进行具体的分析,验证深度强化学习算法在智能车自主驾驶决策系统中的可行性和有效性。

其他文献

铁锰双金属Fe/Mn-GAC催化剂的制备及其催化Fenton降解苯胺黑药的效能研究

近年来,随着我国矿业的不断发展,选矿过程排放的废水对生环境态及生物安全产生了巨大威胁。苯胺黑药是金属硫化矿浮选过程中使用最为广泛和有效的捕收剂,矿物浮选后废水中残留有大量苯胺黑药,由于分子结构特性,苯胺黑药表现出难降解特性和一定生物毒性,常规处理方法难以实现废水的有效处理。本研究以颗粒活性炭为载体,制备负载型铁锰双金属非均相Fenton催化剂,催化Fenton降解水中苯胺黑药,考察并优化了催化剂制

学位

非均相Fenton双金属Fe/Mn-GAC催化剂苯胺黑药自由基动力学

盐地碱蓬对Cd及Cd，Pb复合污染的提取修复效果研究

受灌溉方式和施肥因素的影响,许多盐渍土壤也受到重金属的污染。Cd、Pb具有较强生物毒性,对此类污染土壤的修复受到广泛关注。本研究选取草木樨、盐地碱蓬、大叶补血草、野榆

学位

土壤盐渍化Cd Pb污染盐地碱蓬植物提取修复无机金属离子

电容器用TiO2纳米阵列复合电极材料的制备及其性能研究

超级电容器是一种新型的储能器件,具有高功率密度、长寿命、优异的循环稳定性和环境友好等优点。电极材料性能的优劣直接影响到超级电容器的性能,因而新型电极材料的开发与应

学位

TiO2W18O49超级电容器核壳结构电化学性能

基于机器视觉的管状物料表面缺陷检测方法研究

管状物料表面缺陷(下简称表面缺陷)是评价产品合格与否的关键指标。但管状物料在生产过程中,因生产工艺、生产材料、生产设备等因素影响,会出现斑点、划痕、裂纹、凹坑等表面缺陷。目前常用的表面缺陷检测方法是人工对缺陷物料进行挑选,其受人为因素大且运行效率低。针对表面缺陷检测要求准确率高、速度快的需求,本文采用机器视觉和图像处理技术对管状物料进行缺陷检测和分类。本文主要开展了如下研究内容:(1)针对管状物料

学位

机器视觉管状物料表面缺陷检测图像拼接支持向量机

顾及散射辐射的中国陆地生态系统GPP模拟与分析

陆地生态系统碳收支的模拟研究是当今全球变化问题关注和探讨的热点之一,它不仅对气候变化系统有着重大的影响,而且还与地球系统的生物圈、人类圈等圈层有着紧密的关联。陆地

学位

总初级生产力陆地生态系统散射辐射气候变化

恒大煤矿深部巷道围岩变形破坏及支护研究

随着浅部煤炭资源的开采枯竭,煤炭资源的开采越来越向深部发展,高地应力问题越来越突出并成为影响巷道变形破坏和稳定性的主要因素,而且深部地层应力变化多端,不同的地质结构

学位

深部巷道变形破坏侧压力系数围岩支护应力数值模拟

基于深度学习的专利知识推送方法研究

在综合分析了专利、设计固化、能力模型、深度学习和推荐系统的研究现状后,针对当前专利推送系统中设计师能力特征少、划分粗略、评价缺乏客观性和未考虑设计师在不同阶段其能力特征会改变的缺陷,以及目前专利推送均采用专利分类的方式进行、推送系统的个性化水平较低、对设计固化研究不足的问题,提出了设计师能力模型的构建和客观定量评价、基于深度学习的专利推荐模型选择、结合创新设计实践过程的设计师能力特征更新以及考虑设

学位

创新设计设计固化能力模型深度学习专利知识推送

基于UGC的老年人移动学习APP界面设计研究

我国已经步入老龄化社会,越来越多老年人通过进入老年大学学习,来提升生活质量,满足精神生活。而目前已有的老年教育资源及服务供给方面的缺口依然很大,同时市场上针对老年人

学位

UGC移动学习界面设计

一种移动终端上下文感知与自适应的移动应用使用行为预测框架技术研究

随着移动终端的普及率越来越高,用户在移动终端上安装越来越多功能复杂的应用。这些安装的应用一方面丰富了人们的日常生活;然而,另一方面也给移动终端的管理带来一些困难。

学位

移动应用使用预测移动终端用户体验预测精度训练代价

基于统一参数模型的ICPT系统的拓扑寻优和性能优化

感应耦合电能传输(ICPT)技术是一种基于电磁感应的近距离无线电能传输技术。目前在科研和工程项目中应用的ICPT系统存在的如下问题,首先,不能同时优化多个设计目标,难以在实

学位

ICPT技术拓扑寻优多目标性能优化谐振参数设计

基于深度强化学习的智能车自主驾驶策略研究

其他学术论文