自动驾驶汽车纵向控制的强化学习算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ncsjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶系统是一个集环境感知、决策控制等功能为一体的综合系统,近年来随着人工智能技术的发展及其在生活中的普及,机器学习的方法也逐渐被引入到了自动驾驶系统的设计中。本文的研究依托于国家科技部项目“电动自动驾驶汽车关键技术研究与示范运行”,旨在通过将强化学习方法与自动驾驶技术结合,进一步改进自动驾驶汽车纵向决策层的设计,从而适应多变的行车环境,并且在决策过程表现出人性化与个性化。主要研究内容如下:(1)汽车纵向自动驾驶决策框架首先针对自动驾驶纵向控制中基于规则的决策推理模型进行阐释,然后介绍了基于值函数和策略的两种强化学习方法。在此基础上,将深度学习与强化学习方法结合,介绍了两种适用于自动驾驶任务场景的深度强化学习算法。最后,在自动驾驶纵向控制与强化学习基本理论的基础上,完成了基于强化学习的自动驾驶汽车纵向决策框架的设计,将其应用于高维状态动作空间下的自动驾驶任务序贯决策问题。(2)基于深度强化学习的自动驾驶纵向控制研究在考虑车辆行驶安全性,舒适性和稳定性的多目标决策体系基础上,为了尽可能表现出系统的人性化与个性化,选取驾驶模拟器作为数据采集平台,设计多种日常行驶工况采集驾驶员的真实驾驶数据,基于卡尔曼滤波的方法对数据处理并提取出三种能够表现驾驶特性的特征参数用于最终的试验验证。在所设计的纵向决策框架中,首先针对自动驾驶纵向控制任务对马尔科夫决策过程建模,根据环境感知层的行车环境信息和车辆状态信息输出选取若干特征作为状态集元素,以期望动作指令做为动作集元素,而后基于逆强化学习的方法,对驾驶员真实驾驶行为数据重采样后作为若干组专家状态轨迹应用于回报函数模型的建立,并将回报函数用于行为价值函数和策略网络的训练,对模型网络的结构完成参数设计,基于状态集动作集与个性化回报函数完成纵向自动驾驶的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法设计。最后,由上层基于强化学习算法的决策模型输出车辆期望加速度后,参照车辆逆纵向动力学模型对下层执行控制器设计以建立决策模型输出与车辆接口的控制信号输入之间的联系,分别设计了加减速模式切换逻辑以及逆向驱动制动模型,并在Carsim中搭建了仿真测试环境,模拟了车辆在期望加速度下的实际动态响应,验证了模型的可靠性,从而实现对驱动及制动系统的实时控制并在宏观层面上体现驾驶员的操作特性。(3)纵向控制算法试验与验证基于Carsim与Simulink联合仿真平台与哈弗H7线控化智能车试验平台对本文所设计的自动驾驶车辆纵向控制算法进行仿真试验与实车试验。通过选取日常交通场景下的典型工况进行测试验证,并将驾驶员真实驾驶数据与系统控制下的试验结果对比,验证了算法在定速巡航、目标跟随等多个控制状态下的有效性、合理性与可靠性。
其他文献
【正】 哥伦比亚人恩里克·卡斯蒂略·林肯曾五次登上飞碟。飞碟从湖中升起,通过一神秘“圆球”找到卡斯蒂略所在方位。卡斯蒂略循着飞碟射出的光柱升入碟舱,与飞碟
社会主义核心价值观是我国社会最基本、最核心的价值观,蕴含了对社会全体成员的殷切希冀。初中阶段是一个人成长的过渡时期,也是一个人世界观、人生观和价值观形成的关键时期。初中生社会主义核心价值观认知与践行的现状,反映着社会主义核心价值观培育与践行的效果。通过梳理初中生对社会主义核心价值观认知、认同和践行的现状,厘清当前在知行合一上存在的问题,探寻培育路径,以达到知行合一的理想状态。关乎着中国特色社会主义
应用系统工程和渠道设计的理论与方法,研究了大型骨干渠道工程设计流量和加大流量的优选问题,为今后研究大型渠道工程的规模提供了理论依据和设计方法。该方法已用于研究南水北
基于国家会展中心(上海)能源中心外立面改造工程,对既有建筑外立面改造施工技术进行研究。不同于常规新建工程,该项目在施工过程中需保障原有建筑的使用功能。研究内容涉及新
【摘要】兴趣作为非智力因素,对学生完成学习任务起着推动作用,对学生学习能力的培养和开发起着促进作用.小学生数学学习兴趣应该怎样培养呢?学习数学需要活跃的思维和良好的学习方法.本文针对如何营造数学课堂的趣味性进行思考,从人体的五官调动学生的积极性,并且运用直观教具进行激发等,使得学生爱上数学课.  【关键词】小学生;数学课堂;兴趣激发;研究     学习兴趣不是天生的,是需要通过教师的引导、培养和保
职业规划在实现教师自我价值,高效发挥自己潜能,使其成为学生未来发展的引导者和开发者,其作用是不可估量的。针对民族地区教师对职业规划的认识不足,文章从教师职业规划的界
主要针对国有企业混改情况下的财务治理展开深入研究,先提出其重要性,然后以混改情况下财务治理中存在的问题作为研究依据,如财务管理人员的认知能力比较薄弱、财务管理制度
社交媒体和门户网站成为受众获取内容的首要渠道。在媒体融合背景下,面对纷繁复杂的内容信息,记者更应当坚持"内容为王"。本文从传播学视角分析融媒体记者如何做到"内容为王"
本文提出了潮排潮灌系统的非线性规划与模拟技术相结合的混合模型,并在广东省伶仃洋海涂围区规划中得到应用,成果表明该模型和算法是合理可行的。
【正】 1980年11月4日,是拉丁美洲历史上规模最大的一场印第安人反殖风暴——图帕克·阿马鲁二世(Tupac Amaru Ⅱ)领导的大起义二百周年。秘鲁政府和人民举行了各种形式