论文部分内容阅读
控制科学发展至今,人们希望在面对各种越来越复杂的动态系统时,都能够设计出简便、高效的控制方法来解决各种问题。现有的一些先进控制方法在解决非线性系统的问题时,一般需要受控对象的模型先验知识或者人工经验,因此这些方法在处理一些不确定(uncertain)的系统问题时,就会变得十分棘手。基于近似动态规划的自学习控制方法,作为增强学习的分支,能够通过观测的数据来学习出适应于当前复杂动态系统的最优控制策略。另一方面,智能车辆发展十分迅速,车辆智能驾驶技术已经成为高科技信息公司和传统汽车企业争先攻占的技术高地。车辆在不同的道路环境驾驶时,其动力学模型会发生一定的改变,因此本文使用了自学习控制方法来解决智能车辆的运动控制问题。本文主要对基于近似动态规划的自学习控制方法进行了基础的研究,并且使用自学习控制方法来解决智能车辆路径跟踪问题。下面主要对论文的工作成果和创新点进行简要的介绍:(1)针对基于单核模型逼近器的增强学习方法存在核宽度选择困难、经典近似动态规划方法需要部分模型信息的问题,提出了无模型的多核学习控制(Model-free Multi-kernel Learning Control,MMLC)方法。该方法通过核稀疏化的方法选取特征点,并与设计好的多核模型构造多核特征,以此形成评价器的逼近结构,通过递推最小二乘时域差分算法来对评价器进行权值参数更新,同时使用梯度下降来对神经网络构成的执行器进行权值更新,直至收敛逼近最优控制策略。多核方法较单核方法具有更加稳定的性能和更为灵活的结构,和对参数选择的鲁棒性良好,由于选择的多核学习框架较单核具有更强的特征表示能力,也使得新方法,拥有更快的收敛速度。另一方面,多核框架下的逼近结构也由于增强学习的特性,多个核之间的权重会在学习的过程中进行收敛,也可以认为,多核逼近结构的参数会根据实际数据分布进行自适应调整。(2)提出了针对连续时间系统下的离散化算法结构,以及有限时域滚动优化的无模型Actor-critic方法。从仿真实验中得知,通过有限时域滚动优化的无模型Actor-critic算法较原始的基于传统的无限时域的无模型的Actor-critic算法在线学习的成功率更高,平均策略学习时间大约仅仅为原来的5%。这印证了有限时域的滚动优化的方法,对于一些计算复杂度低、学习效率不高的学习算法又较大的提升。在倒立摆和板球系统的仿真中,经过滚动优化的Actor-critic算法不仅仅在线学习时能取得良好地暂态性能,而且学得的控制策略在状态空间中是光滑的,可以较好的解决连续时间系统下的控制问题,同时也具备良好地抗干扰能力以及优秀的泛化性能。(3)提出了一种基于MMLC的高精度车辆路径跟踪的侧向控制方法。首先对智能车的侧向控制问题建立车辆与期望路径误差关系的车辆状态转移模型,然后使用MMLC算法进行了算法控制器的设计。我们通过在策略学习的方式来进行策略的学习,然后将学得车辆的侧向控制器在SIMULINK+PRESCAN搭建的多场景平台进行了仿真测试,并与较为先进的三种车辆跟踪的侧向控制器进行了对比,结果表明该自学习控制器能够获得更优的控制效果。