论文部分内容阅读
本文研究了一类连续时间线性随机Markovian跳变系统的在线自适应优化控制器设计算法。并提出了一种新的在线解耦技术,即“子系统转换”,用于分离Markovian跳变系统中子系统之间的耦合关系,进而将这种耦合关系表示为一个显性的迭代数学表达式。基于积分强化学习的方法(即,近似动态规划的手段),本文提出了两种新的策略迭代算法用于求解连续时间线性随机Markovian跳变系统的H2/H∞优化控制器设计问题。需要指出的是,这两种新的策略迭代算法是基于“两步迭代”的结构,即“策略评判”和“策略改进”。本文所给出的在线策略迭代算法的最大优势在于,求解对应优化控制器时,仅需要利用系统的部分动态信息,而不需要系统的完整动态信息。而且,与现有的离线计算迭代算法相比,本文中所给出的新的在线策略迭代算法具有更快的收敛速度。本文的主要工作和贡献具体体现在如下五个方面:1.相比较于一般的连续时间线性或者非线性系统,连续时间线性随机Markovian跳变系统有两个组成部分,即跳变的“模态”和连续的“状态”,其中,跳变的“模态”取决于有限状态Markov链,而连续的“状态”则由一个微分方程所决定。连续时间线性随机Markovian跳变系统的变量不仅与连续时间域有关,还依赖于所定义的概率空间。所以,已有的针对连续时间线性或者非线性系统的“近似动态规划”方法,就不可能完全适用。考虑到系统动态信息不完全获知的前提下,求解得到其最优控制器,本文提出了一种新的解耦技术,即“子系统转换”。借助于“并行算法”,利用“子系统”转换技术,将Markovian跳变系统之间的耦合关系被表示为一个显性的等式迭代关系,即“耦合关系改进”。在建立在线自适应优化控制器设计算法的过程中,这个显性的迭代等式起到了非常重要的作用。相关的内容见第二章和第四章。2.在第二章中,研究了连续时间线性随机Markovian跳变系统的在线自适应H2优化控制器的设计算法问题。通过子系统解耦技术,本章节将Markovian跳变系统分离为N个具有耦合关系的子系统。在已知部分动态信息的前提下,应用所给出的在线策略迭代算法求解连续时间耦合代数Riccati方程,并获得最终的依赖于模态的控制器增益序列。本章节不仅证明了算法的收敛性,并通过仿真示例用来验证这个策略迭代算法的有效性和可行性。3.在第三章中,给出了两个计算迭代算法用来求解耦合的对策代数Riccati方程,并求解出连续时间线性随机Markovian跳变系统的H∞控制器。这两个数值迭代算法都是基于Kleinman迭代的框架提出的。首先,本章节给出了“直接并行Kleinman迭代算法”,并证明了其收敛性。随后,通过引入了一个更广义的数值迭代算法,即“广义并行Kleinman迭代算法”,研究了其四种不同情况的迭代算法。最后,数值示例验证了这两个数值迭代算法的有效性。4.在第四章中,提出了一种新的在线策略迭代算法,用于求解连续时间线性随机Markovian跳变系统的H∞优化控制问题。基于第三章的“直接并行Kleinman迭代算法”,并结合“子系统转换”手段,将随机Markovian跳变系统转换为一组拥有相同扰动输入的线性子系统。借助于近似动态规划方法,本章节研究了两执行器零和对策问题,并求解出连续时间耦合对策代数Riccati方程。本章节不仅证明了新的策略迭代算法的收敛性,并通过仿真示例用来验证这个策略迭代算法的有效性和可行性。5.在第五章中,给出了概括总结和前景展望,并指出了研究中有待进一步解决和完善的问题。