智能驾驶车辆自评价学习控制方法研究

来源 :国防科技大学 | 被引量 : 7次 | 上传用户：abeey2009

【摘要】

：

作为智能交通系统的核心,车辆智能驾驶技术具有广阔的应用前景,已成为世界汽车产业新一轮竞争的焦点。运动控制技术是实现车辆自主驾驶的基础。由于智能车辆本身具有非线性、

【作者】

：

黄振华

【出处】

：

国防科技大学

【发表日期】

：

2017年01期

【关键词】

：

智能驾驶车辆运动控制增强学习自评价学习执行器-评价器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为智能交通系统的核心,车辆智能驾驶技术具有广阔的应用前景,已成为世界汽车产业新一轮竞争的焦点。运动控制技术是实现车辆自主驾驶的基础。由于智能车辆本身具有非线性、时延等复杂动力学特性,且道路坡度和侧倾度不断变化,轮地作用关系也较为复杂,因此实现高性能的车辆运动控制在理论和技术上都具有挑战性。自评价学习控制是增强学习(Reinforcement Learning,RL)在优化控制中的重要研究方向,具有自学习能力强、依赖模型信息少和数据驱动等特点,常被用于解决机器人和复杂系统控制等领域中存在的控制问题。面对行驶环境的复杂性、车辆动力学模型的非线性和时滞性等诸多困难,如何研究和利用自评价学习优化的方法实现高性能车辆运动控制是本文的主要研究目标。针对智能驾驶车辆的侧向控制、纵向控制以及协同自适应巡航控制三种典型的运动控制问题,本文重点研究了一类具有执行器-评价器框架的自评价学习控制理论方法。本文的主要工作成果和创新点如下:(1)针对智能驾驶车辆控制系统中存在的非线性和时延特性,提出一类仿射非线性时延系统的同步迭代对偶启发式规划算法(Synchronous iterative Dual Heuristic Programming,SI-DHP),并理论分析了该算法的收敛性。与现有方法相比,所提出的SI-DHP算法能够对含有状态时延项和动作时延项的非线性Hamilton-Jacobi-Bellman方程进行高效的同步迭代优化求解。利用前馈神经网络设计了SI-DHP算法中的执行器模块和评价器模块,分别用于逼近最优状态值函数和最优策略。利用仿真实例比较了SI-DHP学习控制方法与传统PI反馈控制方法的性能,结果表明SI-DHP学习控制方法具有良好的自学习优化和抗干扰能力。(2)提出一种基于SI-DHP的侧向学习控制方法。该方法结合了前馈-反馈控制结构,利用SI-DHP算法实现了反馈转向控制策略的优化。前馈转向控制器的输入信号是期望路径的曲率,结合所建立的阿克曼几何转向模型与轮胎模型两部分信息,得到了车辆所需补偿的轮胎侧向力和侧偏角,输出跟踪期望曲率所需要的前馈转向控制信号。反馈转向控制器利用车辆与期望路径之间的误差关系,考虑了车辆转向执行机构的时延特性和饱和特性,以最小化侧向跟踪误差和能量损耗为性能指标,采用SI-DHP算法获得优化的反馈转向控制策略。利用CarSim仿真软件进行了智能驾驶车辆的换道跟踪测试、圆形道路跟踪测试、S曲线道路跟踪测试以及城市综合道路跟踪测试,仿真结果表明基于SI-DHP的侧向学习控制方法与传统的LQR反馈控制方法、预瞄方法相比较具有更高的控制精度,尤其在车辆处于高机动行驶状态时。最后进行了红旗HQ3高速公路自主驾驶实验,验证了该侧向控制方法的有效性。(3)针对传统执行器-评价器方法存在着基函数构造困难、逼近器结构复杂以及学习泛化能力不够高的问题,提出一种基于离线参数化策略学习的执行器-评价器方法(parameterized batch actor-critic,PBAC)。通过在样本空间进行基于核稀疏化的二次采样,PBAC方法实现了基函数构造的自动化。PBAC方法中执行器和评价器采用相同的基函数分别逼近动作策略和状态值函数,并利用批量样本进行学习训练,提高了学习泛化性能。在车辆纵向解析模型未知的条件下利用PBAC方法学习得到了自适应速度跟踪控制策略,优化了智能驾驶车辆的纵向控制性能。利用实验车辆-红旗HQ7对跟踪5km/h至40km/h的速度控制策略进行了仿真研究和实验验证。仿真结果表明,基于PBAC的学习控制方法在噪声干扰条件下较传统PI和自适应PI控制方法有更高的控制精度。最后在城市颠簸路面、上下坡路面以及湿滑路面上进行了速度跟踪实车实验,验证了PBAC学习控制方法的有效性。(4)提出一种基于在线增量式DHP(Online Incremental based DHP,OI-DHP)学习的双车协同自适应巡航控制方法。在纵向协同控制中,利用OI-DHP方法对当前车辆跟踪目标车辆的加速度策略进行学习和优化,使两车达到相同速度和保持期望车距。在侧向协同控制中,局部路径规划模块利用目标车辆的位姿信息输出当前车辆跟踪目标车辆的期望路径,然后根据基于路宽约束的车路关系评价方法优化得到当前车辆跟踪期望路径所需要的最优转弯半径,再由侧向控制模块完成路径跟踪任务。仿真结果表明,在保证跟踪精度前提下基于OI-DHP学习的纵向协同控制方法在前车速度阶跃变化、缓加减速和急加减速情况下较传统LQR控制方法与PI控制方法具有更快的响应速度和更小的超调量。另外,利用车辆仿真软件PreScan所搭建的城市道路环境,测试了智能驾驶车辆的协同自适应巡航控制性能。结果表明所提出的协同自适应巡航控制方法在多种道路场景下具有良好的自适应优化能力。

其他文献

部编版初中语文“活动·探究”戏剧单元教学研究

本文研究对象部编版初中语文教材“活动·探究”单元中的“戏剧”指的是构成戏剧的文学的因素——戏剧文学,即根据舞台表演和阅读而创作的剧本,通过创作的剧本中个性的语言、

学位

部编版初中语文教材“活动·探究”单元戏剧教学

介质配比对磨矿效果影响的试验研究

针对盘龙铅锌矿磨机球荷配比不合理,严重影响磨矿效率现状,进行了球荷配比对磨机磨矿效果影响的试验研究。试验结果表明,直径为20 mm的球组以Φ25∶Φ20∶Φ15=20∶67∶13配

期刊

球磨机介质配比磨矿效果

基于机器学习的老年人动作识别方法研究

我国人口老龄化问题的日益加剧，针对这一问题设计基于机器学习的老年人动作识别方案。采用智能检测系统采集数据，根据动作识别机制的基本特点进行数据分析，建立BP神经网络模型。

期刊

老年人动作识别机器学习BP神经网络

平顶光束多点激光冲击薄壁件的强化与变形研究

激光冲击处理技术作为一种新型的表面处理技术,在航空整体叶盘冲击强化、航空机匣激光冲击校形、飞机壁板激光冲击成形、汽车制造、船舶制造等领域均有着广泛的应用价值。薄

学位

平顶光束激光冲击GH4169高温合金薄壁件数值模拟表面完整性薄壁件变形

商业零售企业成本核算浅析

目前,零售企业在整个经济发展中发挥着不可忽视的作用。对于零售企业来说,成本核算具有重要的作用,由于零售企业本身所具有的特点使其成本核算较为繁琐和复杂,因此,加强成本

期刊

商业零售企业成本核算经营管理

西部地区城镇太阳能住宅全生命周期碳排放研究

在全球气候变迁且建筑能耗相对较大的背景下,节能减排成为我国重点关注的问题,建筑物在建筑生产、运行及最后拆除过程中消耗大量能源并排放出大量的温室气体,降低建筑物二氧

学位

全生命周期碳排放太阳能住宅太阳能采暖效率

社会主义友善价值观研究

围绕“何谓友善”这一根本问题,本项研究主要从理论与实践两个维度展开深入细致探讨,以逐步廓清“友善”这一核心价值观的深厚思想内涵和丰富践行路径,进一步拓宽人们理解友

学位

友善价值观社会主义核心价值观

当前我国的英语教育改革

改革开放以来,我国高校英语教育取得了一定的发展。但是,随着全球经济一体化趋势的加强,在新的时代背景下,高校英语教育逐渐显现出一些难以解决的问题。因此,加强高校英语教

期刊

英语教育教育改革

经济适用住房制度中的法律问题研究

适当住房,是人类生存和发展所不可或缺的重要物质条件,以“人人享有适当的住房”为内容的住宅权是公民的一项基本权利。在以市场为基础的住房供应和消费体系中,人们对住房的

学位

经济适用住房公共住房住房保障住房补贴方式

STM/AFM相关软件系统设计与开发

该文介绍了相关扫描隧道显微镜和原子力显微镜(STM/AFM)机型的整个软件系统的设计思路及其实现方法,对其中的三大分支:硬件控制采集系统、图像处理与3D重建系统、扫描隧道谱

学位

扫描隧道显微镜原子力显微镜扫描隧道谱数据采集图像处理3D重建

智能驾驶车辆自评价学习控制方法研究

与本文相关的学术论文