基于高斯过程的强化学习及汽车智能巡航控制

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：kwl9970024

【摘要】

：

针对汽车自适应巡航控制系统这一类模型未知、运行环境不确定的系统，基于模型或基于专家经验的传统控制方法很难求解最优的控制策略。基于数据学习的方法，特别是强化学习，通过与

【作者】

：

夏中谱

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

强化学习控制高斯过程智能巡航控制汽车智能巡航自适应控制非线性仿射系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对汽车自适应巡航控制系统这一类模型未知、运行环境不确定的系统，基于模型或基于专家经验的传统控制方法很难求解最优的控制策略。基于数据学习的方法，特别是强化学习，通过与系统交互不断学习和改进控制策略，被认为是解决问题的有效方法，成为当前研究的热点。但实际应用中，系统的状态和动作通常都是连续，对现有的强化学习控制方法和理论提出了挑战。　　论文使用高斯过程回归解决强化学习方法在连续状态动作系统的应用问题，首先针对非线性仿射系统，提出了无模型的强化学习控制方法;进而将方法扩展到在线的强化学习上，实现对状态空间的高效探索和对控制策略的快速评估;最终将提出的方法应用到汽车智能巡航控制上，使用硬件在环的汽车仿真平台测试和分析控制器性能，为汽车辅助驾驶系统提供可靠的方法和理论支持。论文将包含以下工作和贡献:　　1.针对连续状态动作的非线性仿射系统，提出了无模型的最优控制方法。基于被控对象的状态转移数据，对给定的策略进行评估得到动作值函数，进而根据动作值函数求解贪婪策略，如此不断迭代直到得到最优控制策略。理论证明了策略评估时动作值函数的收敛性，控制策略经过提升后的稳定性及学习结果的最优性。最后使用高斯过程回归构建评价网络和执行网络，根据系统状态转移数据迭代训练网络直到参数收敛。并将方法应用于两个不同的非线性系统控制中，实验结果与理论证明相一致。　　2.从概率统计的角度出发，提出了基于贝叶斯推理的在线强化学习方法，很好地解决了强化学习中状态空间探索和策略评估两个难题。使用高斯过程建模动作值函数，以奖惩值为观测量，基于贝叶斯推理的方式实现了对控制策略的快速评估。进而在高斯过程中加入系统先验知识，结合(e)-greedy动作选择方法实现对系统状态空间的有效探索。最终实现了一种基于贝叶斯推理的在线强化学习控制方法，实验验证了方法的有效性。　　3.基于dSPACE实时仿真系统的模型、软件和硬件，搭建了驾驶员+硬件在环的汽车仿真测试平台，为汽车辅助驾驶系统开发前期的数据采集和测试提供了支持。使用高斯过程回归学习驾驶员跟车习惯特性，结合线性二次型控制算法构建符合驾驶员习惯的自适应巡航控制器。使用飞思卡尔32位微处理器实现控制算法，在汽车仿真测试平台上构建虚拟交通环境，测试和分析控制器的有效性。　　4.基于驾驶员跟车模型、视觉模型和安全距离模型，设计了集舒适性和安全性于一体的智能巡航控制策略评价指标。从本车速度和加速度空间采集状态转移数据，并增广到跟车过程的状态动作空间，得到独立分布的状态转移数据。进而根据状态转移数据和性能指标，使用之前提出的无模型最优控制方法学习最优控制策略。并将学习得到的控制策略与二次型控制器、PID控制器进行比较，在不同的汽车行驶场景中仿真和测试，验证了无模型最优控制方法在汽车智能巡航控制问题上的有效性。

其他文献

准高速铁路站场信号分布式远程监控系统的研究

信息技术的迅猛发展正深刻改变着人们的生活方式、工作方式,对企业信息化和自动化领域的发展也产生了巨大的影响。在企业信息化和自动化领域,计算机技术、控制技术、网络和通

学位

DTMF低压电力线载波对象 WebCORBA

基于嵌入式Web服务器的远程监控系统的研究

嵌入式远程监控系统是信息网络与工业控制网络结合的产物，它通过现场控制网络、企业内部网和Internet，把分布于各地的智能仪表系统连接起来，实现与远程控制设备的信息交互，完成远

学位

嵌入式远程监控系统嵌入式远程监控系统LinuxLinuxWeb服务器Web服务器CGICGI实时性实时性智能仪表系统智能仪表系统

现场总线下ADAM-5000/485 OPC数据访问服务器的研究与开发

随着计算机、微电子、通信和网络技术的发展,工业控制领域发生着深刻的变化,新的工业信息结构形成,现场总线技术和工业控制产品不断涌现,自动化系统对大范围信息共享的需求越

学位

现场总线ADAM-5000/485OPC 服务器串行通讯协议

微机故障录波与分析装置的研究

电力系统正朝着大容量、超高压、远距离方向发展,电网的结构越来越复杂。这些特点给系统的规划设计、生产运行、监视控制、维护管理带来了一系列新课题。而许多不确定的、非精确的因素,常常使电力系统的故障分析和诊断变得很困难,这就需要故障录波分析装置对保护动作进行总体的判断和评判。本文围绕微机故障录波装置的研制和开发过程,分析了现有故障录波装置的基本情况和主要技术参数,将DSP、GPS、以太网等先进的技术应用

学位

故障录波DSP以太网专家系统故障诊断

复杂非线性系统的小波神经网络建模及其应用

人工神经网络、小波分析和遗传算法的研究是当代信息科学技术的前沿和热点,对于复杂非线性系统辨识和预测具有重要的理论和应用价值。本文在深入研究小波分析、人工神经网络

学位

小波神经网络小波分析函数逼近遗传算法最小二乘法非线性系统辨识

网络图像的弱监督语义分割

近些年来兴起了一大批社交网站和图像分享网站例如Flickr、Facebook，这些网站鼓励用户上传图片并给图片打上标签用于描述图片内容，因此拥有了海量的网络图像资源，并且呈指数级增

学位

网络图像图像语义分割弱监督超像素聚类卷积神经网络

基于多特征概率图模型的视觉人体行为识别

视觉人体行为分析是计算机视觉领域中的一个重要研究方向，它是通过计算机来实现对未知视频序列中的人体行为的自动分析，实现对视频中人体行为的行为类别预测、发生位置判断等目

学位

概率图模型计算机视觉人体行为识别分层贝叶斯模型多特征融合

基于数值模拟技术的电力变压器静电场的研究

在我国变压器生产行业中,传统的以经验和试验为主的设计方法相对于以计算机辅助设计(CAD)和计算机辅助工程(CAE)为代表的新技术来说,已经不再适合现代市场竞争的需要。利用计算机辅助工程的方法,可以在十分接近真实情况的静态和动态运行条件下研究零部件的特性,而无须投入大量的实际试验费用。将CAE 技术引入变压器的设计生产中,可以显著的提高产品的设计性能,缩短设计周期,增强产品的市场竞争力。为了合理又可

学位

电场数值计算变压器绝缘

基于实装软件的构造仿真技术研究

学位

基于Spark的Web文本语义检索系统的研究

学位

基于高斯过程的强化学习及汽车智能巡航控制

与本文相关的学术论文