智能驾驶车辆自主决策与规划的增强学习方法研究

来源 :国防科学技术大学 | 被引量 : 14次 | 上传用户:xhb74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
早期表格型增强学习算法难以解决具有大规模或连续状态空间的优化决策问题,这极大限制了增强学习的应用推广。近年来,用于求解大规模或连续状态空间问题的值函数逼近方法成为增强学习的研究热点,而该类方法的一个关键问题是特征表示,直接影响着算法性能。智能驾驶车辆是人工智能的重要应用领域,受到越来越多的关注。如何利用机器学习方法提高智能车辆的自主决策和导航能力,提高车辆驾驶的安全性,是智能驾驶领域的研究热点和难点。本文在国家自然科学基金项目“结构化增强学习及其在虚拟人运动规划中的应用”、“自主驾驶车辆关键技术与集成验证平台”等支持下,以增强学习及其在智能车辆自主驾驶决策与规划中的应用为研究内容,重点开展了大规模状态空间中增强学习的特征表示方法、动态车流条件下智能车辆驾驶决策的增强学习方法和基于增强学习的智能车辆分层路径规划方法研究。本文首先综述了增强学习的研究现状,介绍了智能驾驶车辆的发展历程和研究进展,总结了智能车辆驾驶决策与路径规划方法的研究现状。论文取得的主要研究成果包括:(1)提出了一种基于随机神经元的近似策略迭代(RN-API,random-neuron based approximate policy iteration)算法,用于解决大规模或连续状态空间中的增强学习问题。该算法利用单隐层前馈神经网络来构造策略迭代过程中的值函数逼近器,不同于传统单隐层前馈神经网络,RN-API隐层使用的是随机神经元,即网络输入层到隐层的权值和隐层偏置是随机赋值,无需通过训练调整,只有输出层的权值需要通过学习得到。RN-API算法不仅保证了算法的泛化性能,而且减少了构造特征时需要人为优化调整的参数,提高了算法的可用性,理论分析表明该算法具有良好的特征表示能力和泛化能力。通过Mountain-car和倒立摆两个学习控制问题对所提算法进行了仿真研究,结果表明所提算法在保证泛化性能的同时能够有效降低特征表示过程中的参数调整优化难度。(2)提出了一种动态车流条件下智能车辆驾驶决策的增强学习方法,该方法首先将动态车流中的驾驶决策问题抽象建模为具有连续状态空间的马尔可夫决策过程,然后利用近似策略迭代算法进行求解。所提方法基于数据驱动,可以利用样本数据来获取驾驶经验,提高了智能车辆驾驶决策系统的学习能力和对环境的自适应能力。利用基于红旗HQ3自主车建立的高速公路驾驶决策仿真环境对所提方法进行了测试,结果表明了所提方法解决动态车流条件下驾驶决策问题的可行性和有效性。(3)提出了一种基于增强学习的智能车辆分层路径规划方法,该方法上层通过A*搜索快速找到一系列子目标点,下层利用基于增强学习的路径优化器对规划路径进行平滑优化处理。所提方法利用增强学习算法训练路径优化器,训练过程结合了车辆运动学特性,使得路径优化器得到的规划路径符合车辆运动学约束,更利于后续的车辆跟踪控制。对所提方法进行了仿真实验,结果表明所提方法能对规划路径进行有效的平滑优化,并具有较好的自适应性,能够处理一定的环境不确定性。(4)设计实现了基于增强学习的智能车自主驾驶决策系统,在真实交通环境中对该系统进行了实车测试,实验结果表明,在动态车流条件下,利用从数据中获取的决策经验,该系统能够保证智能车在实际交通环境中安全快速行驶,为以后利用增强学习进一步提高智能车辆的自主决策能力奠定了基础。论文最后对将来有待进一步研究的问题进行了分析和展望。
其他文献
目前,嵌入式控制器已经广泛应用于设备的控制系统中,在人类对设备的依赖性增强的同时,设备的安全性、有效性、可靠性对安全生产至关重要,设备和系统一旦发生故障,轻则导致经济损失
随着科学技术的不断进步,现场总线技术得到了飞速发展,已经成为过程控制领域的一大热点。尤其是HART协议,以其独有的优势和特点,得到了越来越广泛的应用。因此,HART多路复用器的研
由于最近几年视频数据量的爆炸式增长,视频分析与理解变得越来越重要并且吸引了大量的研究兴趣。在视频分析与理解领域,对于视频中人体行为的识别是一个活跃的研究方向。在众多
随着工业控制系统的信息化建设加速发展,工业化与信息化融合达到了新的高度。近年来,不断出现的工控系统安全事件,说明攻击者可以利用工控系统存在的脆弱性,毁坏工控系统设备,对人
随着计算机技术在社会各领域的深入渗透,数据正在加速迅猛累积。如何从这些海量数据中挖掘出潜在的有价值信息是现在面临的重要挑战。大规模数据的一个重要体现就是描述数据的
随着工业化和信息化的深度融合,传统工业领域面临着第四次产业升级转型的战略契机,工业信息化建设的逐步推进使得原本封闭的工控系统对外开放性越来越强,但同时也导致工控系统面
本文主要以乙烯装置碳二加氢反应器先进控制项目为背景。碳二加氢反应器是乙烯生产流程中的重要设备,其乙炔转化率和加氢选择性直接影响乙烯产品的质量和产量。但目前该厂的碳
仿生机器鱼作为一种新型的水下机器人,具有良好的机动性和游动效率,应用前景广阔。然而在仿生机器鱼上应用视觉系统却面临着诸多的困难,基于视觉传感的仿生机器鱼目标跟随控制更
面部特征识别和头部姿态估计可根据图像提供用户情绪状态、视线方向、操作意图等大量隐含信息,在心理分析和人机交互等领域应用前景广阔。人脸关键点标记作为面部图像分析中的
由于操作员功能状态(OFS,Operator Functional State)一般与操作员的心理负荷和认知状态紧密相关,这些功能状态很难量化,所以OFS定量研究工作较少。而OFS的精确估计却是自适应辅