论文部分内容阅读
随着信息科学与工程技术的飞速发展,工业控制系统日益庞大且存在着复杂的非线性结构与不确定性因素。如何确保系统安全运行与节能降耗,是现代控制系统的研究重点。非线性最优控制理论则是解决上述难题的关键,因此,受到了广泛的关注。传统的动态规划方法在求解最优控制问题时经常受到“维数灾”的困扰。为了克服此瓶颈,一种新颖的自适应动态规划方法被提出。该方法集成了人工智能领域的增强学习技术以及控制领域的自适应控制与最优控制理论,并利用神经网络完成实现。虽然自适应动态规划已被视为求解非线性最优控制问题最为有效的方法之一,但仍有许多开放性问题值得研究。本文基于自适应动态规划方法,进一步研究了非线性系统的鲁棒控制问题,带有饱和执行器系统的H∞控制问题,以及离散多控制器系统的非零和博弈与协同优化控制问题。
本文的主要研究内容与贡献如下:
(1)针对带有执行器故障和不匹配干扰的非线性系统,我们将不确定系统的鲁棒控制问题转化为辅助系统的最优控制问题。利用自适应动态规划方法,通过求解关于辅助系统的汉密尔顿-雅克比-贝尔曼方程,可获取相应的最优控制形式。针对不同种类的故障和干扰,我们分别设计了基于最优控制策略的鲁棒控制器,并利用李雅普诺夫稳定性理论,推导出了控制器参数选取的具体条件。基于上述思想,我们进一步考虑了同时带有执行器攻击和不匹配干扰的非线性系统,并将相应的鲁棒控制问题转化为零和博弈问题。我们还分别介绍了基于策略迭代和值迭代的自适应动态规划算法,用于求解非线性零和博弈中的汉密尔顿-雅克比-伊萨克斯方程。最后,基于零和博弈的最优控制策略,我们设计了相应的鲁棒控制器,并利用李雅普诺夫方法进行了稳定性分析,同时考虑了神经网络逼近误差的影响。
(2)针对不确定的连续非线性多控制器系统,我们将其鲁棒控制问题转化为多玩家博弈的最优控制问题。为了求解一组耦合的汉密尔顿-雅克比方程,根据基于模型的迭代算法,我们提出了一种数据驱动的自适应动态规划方法。通过证明二者的等价关系,我们可以间接得出算法的收敛性。以双控制器系统为例,根据最优解的形式,我们分别针对不同的执行器不确定项,设计出了两种鲁棒控制策略,并给出了渐近稳定的分析结果。通过稳定性条件,我们可推导出鲁棒控制器的参数设计。为了实现数据驱动的自适应动态规划方法,我们构建了评价网络,并给出了神经网络收敛性证明。
(3)针对带有饱和执行器的未知非线性系统,我们利用自适应动态规划方法对其H∞控制问题进行了深入研究。首先,H∞控制问题可转化为两玩家零和博弈问题。为了求解汉密尔顿-雅克比-伊萨克斯方程,我们提出了一种基于模型的同步策略更新算法,并详细的推导出算法的收敛性证明。在基于模型的方法的基础上,我们提出了一种新颖的数据驱动的无模型算法。该算法的优势在于只需要系统的采样数据,而不需要系统的精确模型信息。为了实现该算法,我们构建了评价网络,执行网络以及干扰网络去分别逼近迭代过程中的值函数,控制策略以及干扰策略。该设计方案为求解一系列最优控制问题提供了一个统一可行的理论框架。通过对性能指标的简化与改进,可将此方案应用于求解一般的最优控制,零和博弈以及跟踪控制等问题。
(4)针对离散多控制器系统,我们首先建立了多玩家非零和博弈问题,并推导出满足纳什均衡的最优控制解的形式。为了求解耦合的贝尔曼方程,我们提出了针对多玩家博弈的策略迭代算法,并使用三层反向传播神经网络完成了算法实现。随后,针对离线算法的缺陷,我们利用评价-执行框架,设计了一种新颖的在线调节算法,并给出了一致最终有界的稳定性分析结果。最后,为了使各层神经网络权值都得到充分学习,我们介绍了一种基于执行依赖启发式动态规划的优化方法。
(5)针对控制输入受限的离散多控制器系统,我们对其协同最优控制问题进行了深入研究。首先,我们建立了协同最优控制问题,并推导出相应的最优控制形式以及协同优化的离散汉密尔顿-雅克比-贝尔曼方程。为了求解此方程,我们提出了一种基于策略迭代的自适应动态规划算法,并利用神经网络实现了离线学习。考虑到执行器时常输入受限的实际情况,我们进一步研究了带有饱和执行器的协同控制问题,并给出了相应的策略迭代算法的收敛性证明。接着,通过构造评价网络,饱和执行网络以及非饱和执行网络,我们设计出了三网同调的在线学习策略。
本文的主要研究内容与贡献如下:
(1)针对带有执行器故障和不匹配干扰的非线性系统,我们将不确定系统的鲁棒控制问题转化为辅助系统的最优控制问题。利用自适应动态规划方法,通过求解关于辅助系统的汉密尔顿-雅克比-贝尔曼方程,可获取相应的最优控制形式。针对不同种类的故障和干扰,我们分别设计了基于最优控制策略的鲁棒控制器,并利用李雅普诺夫稳定性理论,推导出了控制器参数选取的具体条件。基于上述思想,我们进一步考虑了同时带有执行器攻击和不匹配干扰的非线性系统,并将相应的鲁棒控制问题转化为零和博弈问题。我们还分别介绍了基于策略迭代和值迭代的自适应动态规划算法,用于求解非线性零和博弈中的汉密尔顿-雅克比-伊萨克斯方程。最后,基于零和博弈的最优控制策略,我们设计了相应的鲁棒控制器,并利用李雅普诺夫方法进行了稳定性分析,同时考虑了神经网络逼近误差的影响。
(2)针对不确定的连续非线性多控制器系统,我们将其鲁棒控制问题转化为多玩家博弈的最优控制问题。为了求解一组耦合的汉密尔顿-雅克比方程,根据基于模型的迭代算法,我们提出了一种数据驱动的自适应动态规划方法。通过证明二者的等价关系,我们可以间接得出算法的收敛性。以双控制器系统为例,根据最优解的形式,我们分别针对不同的执行器不确定项,设计出了两种鲁棒控制策略,并给出了渐近稳定的分析结果。通过稳定性条件,我们可推导出鲁棒控制器的参数设计。为了实现数据驱动的自适应动态规划方法,我们构建了评价网络,并给出了神经网络收敛性证明。
(3)针对带有饱和执行器的未知非线性系统,我们利用自适应动态规划方法对其H∞控制问题进行了深入研究。首先,H∞控制问题可转化为两玩家零和博弈问题。为了求解汉密尔顿-雅克比-伊萨克斯方程,我们提出了一种基于模型的同步策略更新算法,并详细的推导出算法的收敛性证明。在基于模型的方法的基础上,我们提出了一种新颖的数据驱动的无模型算法。该算法的优势在于只需要系统的采样数据,而不需要系统的精确模型信息。为了实现该算法,我们构建了评价网络,执行网络以及干扰网络去分别逼近迭代过程中的值函数,控制策略以及干扰策略。该设计方案为求解一系列最优控制问题提供了一个统一可行的理论框架。通过对性能指标的简化与改进,可将此方案应用于求解一般的最优控制,零和博弈以及跟踪控制等问题。
(4)针对离散多控制器系统,我们首先建立了多玩家非零和博弈问题,并推导出满足纳什均衡的最优控制解的形式。为了求解耦合的贝尔曼方程,我们提出了针对多玩家博弈的策略迭代算法,并使用三层反向传播神经网络完成了算法实现。随后,针对离线算法的缺陷,我们利用评价-执行框架,设计了一种新颖的在线调节算法,并给出了一致最终有界的稳定性分析结果。最后,为了使各层神经网络权值都得到充分学习,我们介绍了一种基于执行依赖启发式动态规划的优化方法。
(5)针对控制输入受限的离散多控制器系统,我们对其协同最优控制问题进行了深入研究。首先,我们建立了协同最优控制问题,并推导出相应的最优控制形式以及协同优化的离散汉密尔顿-雅克比-贝尔曼方程。为了求解此方程,我们提出了一种基于策略迭代的自适应动态规划算法,并利用神经网络实现了离线学习。考虑到执行器时常输入受限的实际情况,我们进一步研究了带有饱和执行器的协同控制问题,并给出了相应的策略迭代算法的收敛性证明。接着,通过构造评价网络,饱和执行网络以及非饱和执行网络,我们设计出了三网同调的在线学习策略。