论文部分内容阅读
非线性系统的优化控制问题是控制领域重要的研究课题之一。由于实际系统强大的非线性特性,通过对系统建立数学模型,利用传统的基于模型的控制方法求解最优控制器的思路受到了限制,因此探索模型不能完全确定或完全未知情况下的非线性系统的最优控制方法,是非常重要且有价值的研究课题,而强化学习方法是求解系统模型无法精确获得时的有效智能控制方法之一。因此本文主要是基于强化学习方法求解非线性系统的最优控制问题,主要研究内容包括:
(1)针对系统模型部分未知且系统内部状态不可测的典型二阶非线性系统,设计跟踪控制器,跟踪目标轨迹。首先利用系统的输入输出信息设计神经网络观测器,一方面逼近系统的漂移动态,另一方面估计系统的内部状态信息;然后基于估计的系统状态,设计滑模跟踪控制器,实现对既定目标轨迹的跟踪。
(2)针对系统模型部分未知、系统内部状态不可测且存在执行器输入受限的仿射非线性系统,设计最优控制器,实现系统的镇定控制。首先定义了基于系统输出信息的非二次型最优性能指标函数,基于神经网络观测器得到的系统估计状态,推导系统的Hamilton-Jacobi-Bellman方程;然后提出同步积分强化学习算法求解Hamilton-Jacobi-Bellman方程,同时获得最优的性能指标函数和最优控制器;另外同步积分强化学习算法是通过行为-评价神经网络实现的,并且行为-评价网络的权值同时更新。
(3)针对系统模型完全未知的仿射非线性系统,考虑未知的外部干扰,进行H?镇定控制器的设计。首先将H?控制问题中求解Hamilton-Jacobi-Isaacs方程的过程转换为求解两玩家的零和博弈问题;然后给出基于模型的策略迭代算法,并利用其中的两步迭代公式推导了一个新的迭代方程;提出了无模型离策略强化学习算法来求解这个方程,同时获得最优性能指标函数、最优控制输入和最坏的干扰输入;另外行为-评价-干扰神经网络结构用于离策略强化学习算法的实施;最后将提出的算法用于受限两输入线性系统的镇定控制器设计和复杂混沌电路系统中H∞镇定控制器的设计。
(1)针对系统模型部分未知且系统内部状态不可测的典型二阶非线性系统,设计跟踪控制器,跟踪目标轨迹。首先利用系统的输入输出信息设计神经网络观测器,一方面逼近系统的漂移动态,另一方面估计系统的内部状态信息;然后基于估计的系统状态,设计滑模跟踪控制器,实现对既定目标轨迹的跟踪。
(2)针对系统模型部分未知、系统内部状态不可测且存在执行器输入受限的仿射非线性系统,设计最优控制器,实现系统的镇定控制。首先定义了基于系统输出信息的非二次型最优性能指标函数,基于神经网络观测器得到的系统估计状态,推导系统的Hamilton-Jacobi-Bellman方程;然后提出同步积分强化学习算法求解Hamilton-Jacobi-Bellman方程,同时获得最优的性能指标函数和最优控制器;另外同步积分强化学习算法是通过行为-评价神经网络实现的,并且行为-评价网络的权值同时更新。
(3)针对系统模型完全未知的仿射非线性系统,考虑未知的外部干扰,进行H?镇定控制器的设计。首先将H?控制问题中求解Hamilton-Jacobi-Isaacs方程的过程转换为求解两玩家的零和博弈问题;然后给出基于模型的策略迭代算法,并利用其中的两步迭代公式推导了一个新的迭代方程;提出了无模型离策略强化学习算法来求解这个方程,同时获得最优性能指标函数、最优控制输入和最坏的干扰输入;另外行为-评价-干扰神经网络结构用于离策略强化学习算法的实施;最后将提出的算法用于受限两输入线性系统的镇定控制器设计和复杂混沌电路系统中H∞镇定控制器的设计。