基于深度强化学习算法的自动驾驶车道保持模型研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:shenzhiying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的快速发展,自动驾驶(Autonomous Driving,AD)的研究备受人们关注。深度强化学习算法(Deep reinforcement learning,DRL)是自动驾驶的主要应用方法之一,该算法目前已经成功应用于游戏、医学、机器人控制等领域。大部分DRL算法为了提高样本的覆盖率,没有对探索方法进行安全限制,应用于自动驾驶模型时,智能体在探索过程中可能陷入某些危险状态,导致学习失败。此外,自动驾驶感知模块通过摄像头或者其他传感器构建环境模型,而感知环境信号存在盲区或者延迟现象,导致无人车无法准确决策。另外,模拟器环境和真实环境存在很大差异,导致学习的模型无法应用到现实环境中。针对上述问题,对DRL算法安全探索的有效约束和感知模型架构进行改进和完善。主要在以下三方面开展自动驾驶车道保持模型研究:(1)针对DRL算法的不安全、无限制探索问题,提出一种基于动作约束的软行动者-评论家算法(Action constrained soft actor-critic,CSAC)。该算法首先对环境奖赏函数进行改进,当无人车动作转角过大产生抖动时,在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态。其次,CSAC算法对智能体的动作进行约束。当前状态下选择动作后,使无人车偏离轨道或者发生碰撞,则标记该动作为受约束动作,在之后的训练中通过合理约束,从而更好的指导无人车选择更安全的动作。在自动驾驶车道保持任务中,实验结果显示引入安全机制的CSAC方法可以有效避开不安全动作,并提高无人车的驾驶稳定性,同时加快了模型的训练速度。(2)针对自动驾驶过程中存在感知盲区和延迟的问题,提出一种基于生成查询网络(Generative Query Network,GQN)的自动驾驶框架。新的模型架构有两处创新:一是应用表征网络形成场景的表征函数,并通过生成器网络和辅助推理网络根据状态记忆模块生成需要查询的图片。二是该模型由无人车输入2D图片构建先验知识模型,形成3D感知空间。实验采用边训练边收集数据的方法,并与CSAC模型对比分析,实验结果表明在车道保持任务中,加入GQN网络的CSAC算法提高了在急转弯道路的通过率。同时提高了驾驶过程中的稳定性和模型的训练速度。(3)由于模拟器环境和现实环境差距较大,导致模拟器训练的模型无法应用到现实环境。针对这一问题,提出一种基于无监督图像到图像翻译网络的自动驾驶模型。该模型分别采集模拟器环境图像和现实驾驶道路图片,应用自我注意无监督图像到图像的翻译网络(Unsupervised image-to-image translation with self-attention networks,UNIT-SAN)模型。实验分别对零处理、变分自编码器网络(Variational auto-encoders,VAE)、UNIT-SAN网络的CSAC自动驾驶模型进行对比,并将模型迁移到真实的无人赛车上。实验结果显示引入UNIT-SAN网络的CSAC算法增强了无人车感知模型的泛用性,并成功实现了模拟器到真实环境的模型迁移。
其他文献
<正>从某种意义上说,习近平新时代中国特色社会主义思想之所以具有强大的真理力量、道义力量、实践力量、文明力量,就在于其在马克思主义世界观和方法论上深刻塑造并充分实践了“六个必须坚持”的理论精粹和实践智慧
期刊
习近平新时代中国特色社会主义思想的世界观和方法论是中国化时代化的马克思主义世界观和方法论,为全党和全国各族人民提供了科学的世界观方法论、奋进新征程的根本遵循与凝心聚力的思想武器。“六个必须坚持”从哲学层面凝练概括了习近平新时代中国特色社会主义思想的精髓要义,构成了相互联系、内在统一的世界观和方法论,系统阐明了中国共产党人应当坚持什么样的立场观点与方法推进中国式现代化宏图大业,将我们对马克思主义活的
期刊
在强化学习中,一个经典问题是如何解决价值函数对目标进行评估时产生的估计偏差。基于截断式Q学习的方法缓解了行动者评论家算法中出现的过估计偏差,但忽略了来自低估偏差的影响。其次,在使用传统经验回放机制的行动者评论家算法中仍然存在着低效采样导致的缓慢学习。本文主要针对以上问题,对现有算法做出了结合和改进,具体的研究内容可以总结为以下三个方面:(1)目前使用单一估计器进行更新的行动者评论家算法,在计算值函
学位
疫情大环境下,健康管理的重要性日渐突出,体检是个人健康管理的重要组成部分,体检中的筛查项目能够在早期发现疾病,及时治疗和防预可以增加治愈的可能性。当前医疗机构提供的体检报告仍十分原始,纸质版和电子版均存在可读性不佳的问题,受检者阅读体验受限,无法全面读懂健康状况,对个人健康管理的执行造成阻碍。可视化是将人眼不敏感的数字、文字等信息图形化以提升视觉体验,是解决可读性不佳问题的有效手段。本课题从可视化
学位
随着目前空战武器装备的迅猛发展,对于高空高速大机动目标的轨迹预测越来越占据重要的战略地位。为了解决目前存在的目标轨迹预测不足的问题,本文提出了融合小波分解(wavelet decomposition, WD)和长短期记忆(long short term memory, LSTM)网络的模型来对机动目标的轨迹进行预测。首先,通过小波分解将输入的轨迹时间序列分解为1个低频分量(CD1)和3个高频分量(
期刊
随着智能设备的普及和无线通信技术的发展,空间众包(Spatial Crowdsourcing,简称SC)引起了越来越多的关注。在现实场景中,对于复杂的任务,单个工人无法单独高质量地完成任务,此时,空间众包平台更倾向于将每个任务分配给多个工人,这种分配方式称为群组任务分配(Group Task Assignment,简称GTA)。任务分配是空间众包中一个重要的研究方向,对于空间众包中复杂的任务,需要
学位
由于高维数据的空间分布具有簇间差异性和簇内相似性,使得对其进行聚类分析成为可能。然而高维数据结构复杂、冗余信息多,使得高维数据聚类仍然是机器学习与数据挖掘领域的难点之一。基于数据自表示的子空间聚类模型因其扎实的理论基础以及良好的性能表现,近年来引起了数据科学家们的广泛关注。但现有工作中依然存在着以下问题:一是缺乏有效的局部几何结构保持机制,导致相似性度量不准确;二是传统的子空间聚类模型一般采用单层
学位
互联网信息时代中的大多数青年群体因长时间伏案工作和运动量的减少导致脊椎负载能力和负荷量出现平衡失调,在脊椎形态上出现不同程度的弯曲,背部呈现向后凸起并伴有脖子前倾的体态。本文以男青年轻度弓背作为切入点,探讨体表各角度档差分类、纸样放量特征点以及版型的修正方法,探索轻度弓背体男西装放量特征点以及各部位的调整量,为该人群合体型男西装品牌版型设定提供参考性的建议,在个性化定制服务模式中建立起适应轻度弓背
期刊
深度强化学习算法将传统强化学习与深度学习两者结合,是目前解决高维决策任务的一类典型算法,已在各领域广泛应用并取得了突破性进展。经验回放机制是深度强化学习中一项关键技术,可以在消除时序样本相关性的同时提高经验样本的利用率。传统的经验回放方法通过对经验样本进行统一存储并随机采样来完成智能体的训练过程,未考虑到不同重要性程度的经验样本对于模型训练的不同影响。本文着眼于提高基于经验回放机制的深度强化学习算
学位
为更好了解西藏高寒草地退化的成因,更加系统、合理地治理高寒草地退化,对前人的研究成果高寒草地的现状、退化成因进行总结、归纳和分析,并提出修复途径,以期有效保护青藏高原草地,建设青藏高原生态屏障。
期刊