论文部分内容阅读
基于近似动态规划(Approximate dynamic programming. ADP)的最优控制问题是近年来控制领域研究的热点之一。结合强化学习思想的近似动态规划是利用函数近似结构来逼近动态规划方程中的代价函数和控制策略,以满足最优性原理,从而获得最优代价函数和最优控制策略。因而,近似动态规划成功避免了动态规划求解最优控制存在的“维数灾”问题而获得广泛的关注。但是,近似动态规划理论及其算法还没有得到完善,利用ADP研究动态系统最优控制的许多理论与技术问题还有待解决。为此,在国家自然科学基金项目“智能电网的动态全局优化与节能控制理论及其应用(50977008)”等的资助下,本文基于近似动态规划理论进一步研究动态系统若干优化控制问题,提出适合不同情形的迭代ADP算法。并将ADP方法应用到电力系统中,扩展了ADP方法的应用范围。本文主要工作和贡献如下:1.针对未知连续线性系统的最优跟踪控制问题,提出了一种新型的基于ADP的最优跟踪控制方案。首先,将原系统的最优跟踪问题转化成一个增广系统的最优调节控制问题。并证明了增广系统的最优控制解等价于原系统的最优跟踪控制问题的标准解。然后,给出了一种新的在线ADP算法来在线求解增广代数Riccati方程,实现了在线求得未知系统的最优跟踪控制器。2.提出了一种基于ADP的自适应最优控制方案,有效解决了一类离散仿射非线性系统的最优控制问题。首先,利用两个神经网络作为在线参数结构来分别近似代价函数和最优控制律,分别被称为评价网络和执行网络。在考虑神经网络近似误差的基础上,通过Lyapunov理论,证明了系统状态和神经网络权值估计误差都是一致最终有界性,并且能够保证所获得的控制输入在最优控制输入的一个小的邻域内。3.针对一类带有外界扰动的离散非线性系统的H∞控制问题,提出了一个新的在线自适应策略学习方案。利用三个神经网络作为在线参数结构分别设计了评价网络、执行网络和扰动网络,并给出网络权值的在线更新律。在考虑神经网络近似误差的基础上,通过Lyapunov理论,证明了系统状态和所有的网络权值估计误差都是一致最终有界性,并且能够保证所获得的控制输入在最优控制输入的一个小的邻域内。4.提出了一种新的迭代两级DHP算法,解决了一类带有饱和执行器的非线性切换系统的最优控制问题。利用一个非二次型泛函解决了执行饱和约束问题,保证了控制函数在饱和执行器内是一个光滑函数,推导出一种新异的迭代两级DHP算法用来求解约束HJB方程。给出严格的数学证明保证了所提出迭代两级DHP算法的收敛性。5.针对一类离散非线性切换系统的最优跟踪控制问题,设计了一种迭代ADP算法来获取最优跟踪混合控制策略。首先,将最优跟踪控制问题转化为一个误差切换系统的最优调节控制问题。其次,给出了一种新的迭代两级ADP算法来求解误差系统的HJB方程。最后给出算法的收敛性分析,保证了得到跟踪混合控制策略是最优的。6.设计了一种迭代两级ε-ADP算法,其有效地解决了一类离散非线性切换系统的有限时间最优控制问题。首先,给出了迭代两级ADP算法来求解HJB方程,并给出了迭代算法的严格的收敛性分析。接着,给出了ε-最优控制策略,使得迭代两级ADP算法能够在有限步得到在ε误差边界内接近最优值的近似最优代价函数,从而实现了离散非线性切换系统的有限时间最优控制。7.针对未知电力系统的负荷频率控制问题,提出了一个基于ADP的在线H∞鲁棒负荷频率控制器设计方案。首先利用H∞控制方法来处理系统的不确定性问题。然后,利用二人零和微分对策理论来解决H∞控制问题,并通过利用ADP技术和克罗内克积理论,给出了一个基于数据的在线ADP算法,该算法通过利用系统状态和控制输入的在线信息学习博弈代数Riccati方程的解,从而实现了解决完全未知电力系统的负荷频率控制问题。