论文部分内容阅读
在过去的近二十年中,随着科学技术的迅速发展和社会生产需求的不断提高,最优控制越来越成为控制领域的一个研究热点。传统的非线性最优控制方法由于受到诸多限制,导致其难以应用普及。近些年来,为了更好地求解非线性最优控制问题,一种结合强化学习机制的自适应动态规划方法(Adaptive Dynamic Programming)被提出,该方法依托强化学习的理念构建了评价-执行框架,利用函数近似结构来逼近动态规划方程中的值函数和控制策略,通过最优性原理,以迭代求解的方式近似获得最优代价函数和最优控制策略。因而,自适应动态规划成功地避免了动态规划求解最优控制时存在的“维数灾”问题。但是,自适应动态规划理论及其算法还没有得到完善,利用该方法研究动态系统最优控制的许多理论与技术问题还有待解决。本文基于自适应动态规划,进一步研究了仿射非线性系统中的若干最优控制问题,扩展了自适应动态规划的理论基础与应用范围。本文主要工作和贡献如下:
(1)针对系统动态特性未知的仿射非线性离散系统,提出一种在线自适应最优控制算法。我们利用一个神经网络对未知系统动态特性进行辨识,之后基于自适应动态规划的评价-执行框架,设计一种基于实时数据与历史数据训练的在线自适应最优控制算法。该算法通过其独特的数据利用方式,能够有效的确保自适应控制中的持续性激励条件。由于引入三个神经网络,则将不可避免的产生神经网络近似误差,为进一步证明该方法的有效性,我们通过李雅普诺夫方法证明系统状态、评价网络权值误差和执行网络权值误差三者能够保证一致最终有界,且该界限大小依赖于神经网络近似误差,同时还给出持续性激励条件的下限需求。
(2)针对系统动态特性未知仿射非线性连续系统的最优跟踪控制问题,设计一种新型的基于数据的自适应动态规划算法。我们通过对原最优跟踪控制问题的预处理,将原系统增维为由跟踪误差与期望状态构成的增广系统,之后针对该增广系统设计一类带有折扣因子的性能指标函数,并进一步设计数据驱动的策略迭代算法,证明其与传统策略迭代的等价性。我们利用两个神经网络分别作为评价网络和控制网络,在不利用系统动态特性信息的情况下,仅通过系统状态数据来对两个网络进行训练,实现数据驱动的最优跟踪控制器设计。与现有的大部分处理非线性最优跟踪控制问题的文献不同,该方法旨在避免系统辨识过程或利用系统信息,直接利用状态数据来实现最优跟踪控制。
(3)针对值迭代方法在求解仿射非线性连续系统最优控制问题时的迭代收敛性进行分析,并进一步探讨神经网络近似误差对算法迭代的影响。通过一个定性描述整体值函数与单步积分效用函数之间关系的收缩性条件,首次从理论上证明值迭代方法在处理仿射非线性连续系统最优控制问题时的收敛性,并进一步分析神经网络误差对值迭代算法的影响,揭示最优解与迭代近似解之间的关系。为了验证所得结论,我们分别对线性算例和非线性算例进行仿真,对不同近似精度得到的结果进行对比。本章的主要目的在于从理论分析的角度将值迭代学习机制引入仿射非线性连续系统最优控制。由于值迭代方法可由任意半正定函数作为初始值函数,故其避免了对初始容许控制的需求,从而避免目前大多方法在处理连续最优控制问题时对初始容许控制假设的依赖。
(4)针对带饱和执行器的仿射非线性连续最优控制问题设计一种单网值迭代方法。考虑执行器的饱和约束限制,构造一种非二次型泛函来作为最优控制的性能指标函数,之后基于该函数类型设计一种连续值迭代方法来求解最优控制器,并首次证明值迭代方法在处理带饱和执行器的仿射非线性连续最优控制问题时的收敛性。在算法实现方面,为了减少计算量,我们仅利用一个神经网络作为评价网络来对迭代值函数进行近似。相较于以往处理该问题的多数工作对初始容许控制的需求,该方法受益于值迭代的学习机制,可以通过任意一个半正定函数来进行初始化,从而克服了针对带饱和执行器的仿射非线性连续系统先验求取容许控制的难点。
(5)设计一种新型的值迭代算法用于求解仿射非线性连续系统的H∞控制问题。通过引入积分增强学习技术,设计针对仿射非线性连续系统H∞控制问题的连续值迭代方法,并首次通过理论推导证明值迭代学习机制在处理该问题时能够收敛至零和博弈问题的纳什平衡解。我们用三个神经网络作为评价网络、控制网络和干扰网络来分别近似迭代值函数、迭代控制策略和迭代干扰策略,并给出了两个算例来验证所提方法的有效性。相较于处理非线性连续系统H∞控制问题的现存文献,该方法可用任意半正定函数作为初始值函数来初始化算法,从而避免了对初始容许控制的需求,因此初始容许控制的限定条件得以被避免。
(1)针对系统动态特性未知的仿射非线性离散系统,提出一种在线自适应最优控制算法。我们利用一个神经网络对未知系统动态特性进行辨识,之后基于自适应动态规划的评价-执行框架,设计一种基于实时数据与历史数据训练的在线自适应最优控制算法。该算法通过其独特的数据利用方式,能够有效的确保自适应控制中的持续性激励条件。由于引入三个神经网络,则将不可避免的产生神经网络近似误差,为进一步证明该方法的有效性,我们通过李雅普诺夫方法证明系统状态、评价网络权值误差和执行网络权值误差三者能够保证一致最终有界,且该界限大小依赖于神经网络近似误差,同时还给出持续性激励条件的下限需求。
(2)针对系统动态特性未知仿射非线性连续系统的最优跟踪控制问题,设计一种新型的基于数据的自适应动态规划算法。我们通过对原最优跟踪控制问题的预处理,将原系统增维为由跟踪误差与期望状态构成的增广系统,之后针对该增广系统设计一类带有折扣因子的性能指标函数,并进一步设计数据驱动的策略迭代算法,证明其与传统策略迭代的等价性。我们利用两个神经网络分别作为评价网络和控制网络,在不利用系统动态特性信息的情况下,仅通过系统状态数据来对两个网络进行训练,实现数据驱动的最优跟踪控制器设计。与现有的大部分处理非线性最优跟踪控制问题的文献不同,该方法旨在避免系统辨识过程或利用系统信息,直接利用状态数据来实现最优跟踪控制。
(3)针对值迭代方法在求解仿射非线性连续系统最优控制问题时的迭代收敛性进行分析,并进一步探讨神经网络近似误差对算法迭代的影响。通过一个定性描述整体值函数与单步积分效用函数之间关系的收缩性条件,首次从理论上证明值迭代方法在处理仿射非线性连续系统最优控制问题时的收敛性,并进一步分析神经网络误差对值迭代算法的影响,揭示最优解与迭代近似解之间的关系。为了验证所得结论,我们分别对线性算例和非线性算例进行仿真,对不同近似精度得到的结果进行对比。本章的主要目的在于从理论分析的角度将值迭代学习机制引入仿射非线性连续系统最优控制。由于值迭代方法可由任意半正定函数作为初始值函数,故其避免了对初始容许控制的需求,从而避免目前大多方法在处理连续最优控制问题时对初始容许控制假设的依赖。
(4)针对带饱和执行器的仿射非线性连续最优控制问题设计一种单网值迭代方法。考虑执行器的饱和约束限制,构造一种非二次型泛函来作为最优控制的性能指标函数,之后基于该函数类型设计一种连续值迭代方法来求解最优控制器,并首次证明值迭代方法在处理带饱和执行器的仿射非线性连续最优控制问题时的收敛性。在算法实现方面,为了减少计算量,我们仅利用一个神经网络作为评价网络来对迭代值函数进行近似。相较于以往处理该问题的多数工作对初始容许控制的需求,该方法受益于值迭代的学习机制,可以通过任意一个半正定函数来进行初始化,从而克服了针对带饱和执行器的仿射非线性连续系统先验求取容许控制的难点。
(5)设计一种新型的值迭代算法用于求解仿射非线性连续系统的H∞控制问题。通过引入积分增强学习技术,设计针对仿射非线性连续系统H∞控制问题的连续值迭代方法,并首次通过理论推导证明值迭代学习机制在处理该问题时能够收敛至零和博弈问题的纳什平衡解。我们用三个神经网络作为评价网络、控制网络和干扰网络来分别近似迭代值函数、迭代控制策略和迭代干扰策略,并给出了两个算例来验证所提方法的有效性。相较于处理非线性连续系统H∞控制问题的现存文献,该方法可用任意半正定函数作为初始值函数来初始化算法,从而避免了对初始容许控制的需求,因此初始容许控制的限定条件得以被避免。