基于自适应动态规划的非线性控制理论与优化方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：BCB

【摘要】

：

【作者】

：

姜河

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2019年01期

【关键词】

：

自适应动态规划

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息科学与工程技术的飞速发展，工业控制系统日益庞大且存在着复杂的非线性结构与不确定性因素。如何确保系统安全运行与节能降耗，是现代控制系统的研究重点。非线性最优控制理论则是解决上述难题的关键，因此，受到了广泛的关注。传统的动态规划方法在求解最优控制问题时经常受到“维数灾”的困扰。为了克服此瓶颈，一种新颖的自适应动态规划方法被提出。该方法集成了人工智能领域的增强学习技术以及控制领域的自适应控制与最优控制理论，并利用神经网络完成实现。虽然自适应动态规划已被视为求解非线性最优控制问题最为有效的方法之一，但仍有许多开放性问题值得研究。本文基于自适应动态规划方法，进一步研究了非线性系统的鲁棒控制问题，带有饱和执行器系统的H∞控制问题，以及离散多控制器系统的非零和博弈与协同优化控制问题。
　　本文的主要研究内容与贡献如下:
　　(1)针对带有执行器故障和不匹配干扰的非线性系统，我们将不确定系统的鲁棒控制问题转化为辅助系统的最优控制问题。利用自适应动态规划方法，通过求解关于辅助系统的汉密尔顿-雅克比-贝尔曼方程，可获取相应的最优控制形式。针对不同种类的故障和干扰，我们分别设计了基于最优控制策略的鲁棒控制器，并利用李雅普诺夫稳定性理论，推导出了控制器参数选取的具体条件。基于上述思想，我们进一步考虑了同时带有执行器攻击和不匹配干扰的非线性系统，并将相应的鲁棒控制问题转化为零和博弈问题。我们还分别介绍了基于策略迭代和值迭代的自适应动态规划算法，用于求解非线性零和博弈中的汉密尔顿-雅克比-伊萨克斯方程。最后，基于零和博弈的最优控制策略，我们设计了相应的鲁棒控制器，并利用李雅普诺夫方法进行了稳定性分析，同时考虑了神经网络逼近误差的影响。
　　(2)针对不确定的连续非线性多控制器系统，我们将其鲁棒控制问题转化为多玩家博弈的最优控制问题。为了求解一组耦合的汉密尔顿-雅克比方程，根据基于模型的迭代算法，我们提出了一种数据驱动的自适应动态规划方法。通过证明二者的等价关系，我们可以间接得出算法的收敛性。以双控制器系统为例，根据最优解的形式，我们分别针对不同的执行器不确定项，设计出了两种鲁棒控制策略，并给出了渐近稳定的分析结果。通过稳定性条件，我们可推导出鲁棒控制器的参数设计。为了实现数据驱动的自适应动态规划方法，我们构建了评价网络，并给出了神经网络收敛性证明。
　　(3)针对带有饱和执行器的未知非线性系统，我们利用自适应动态规划方法对其H∞控制问题进行了深入研究。首先，H∞控制问题可转化为两玩家零和博弈问题。为了求解汉密尔顿-雅克比-伊萨克斯方程，我们提出了一种基于模型的同步策略更新算法，并详细的推导出算法的收敛性证明。在基于模型的方法的基础上，我们提出了一种新颖的数据驱动的无模型算法。该算法的优势在于只需要系统的采样数据，而不需要系统的精确模型信息。为了实现该算法，我们构建了评价网络，执行网络以及干扰网络去分别逼近迭代过程中的值函数，控制策略以及干扰策略。该设计方案为求解一系列最优控制问题提供了一个统一可行的理论框架。通过对性能指标的简化与改进，可将此方案应用于求解一般的最优控制，零和博弈以及跟踪控制等问题。
　　(4)针对离散多控制器系统，我们首先建立了多玩家非零和博弈问题，并推导出满足纳什均衡的最优控制解的形式。为了求解耦合的贝尔曼方程，我们提出了针对多玩家博弈的策略迭代算法，并使用三层反向传播神经网络完成了算法实现。随后，针对离线算法的缺陷，我们利用评价-执行框架，设计了一种新颖的在线调节算法，并给出了一致最终有界的稳定性分析结果。最后，为了使各层神经网络权值都得到充分学习，我们介绍了一种基于执行依赖启发式动态规划的优化方法。
　　(5)针对控制输入受限的离散多控制器系统，我们对其协同最优控制问题进行了深入研究。首先，我们建立了协同最优控制问题，并推导出相应的最优控制形式以及协同优化的离散汉密尔顿-雅克比-贝尔曼方程。为了求解此方程，我们提出了一种基于策略迭代的自适应动态规划算法，并利用神经网络实现了离线学习。考虑到执行器时常输入受限的实际情况，我们进一步研究了带有饱和执行器的协同控制问题，并给出了相应的策略迭代算法的收敛性证明。接着，通过构造评价网络，饱和执行网络以及非饱和执行网络，我们设计出了三网同调的在线学习策略。

其他文献

鸽子目标导向行为中NCL区与Hp区目标信息表征与传递研究

快速准确的目标导向行为(例如迁徙、归巢、觅食等)与动物的生存息息相关，在此过程中动物大脑对环境的高效适应性是动物智能的重要体现。目标导向行为中的多种认知过程都是服务于目标的识别与选择的。现有的研究结果表明目标信息的稳定表征需要多个脑区的参与，因此脑区间的信息传递对于目标信息表征的实现至关重要。鸽子目标导向行为中，作为信息汇集脑区的弓状皮质尾外侧区(nidopallium caudolaterale

学位

目标导向行为

基于图学习的电信用户流失预测算法

学位

信息物理系统中数据完整性攻击的检测与防御研究

学位

面向随机攻击的工业控制系统攻击建模与检测研究

学位

过程系统优化运行与控制一体化研究

学位

非平稳复杂工业过程数据解析与高性能监控方法研究

学位

基于数据的大型风电机组先进控制算法研究

学位

数据中心能源成本优化

学位

面向微小型共轴双旋翼无人系统的非线性控制设计

学位

微结构光纤内嵌式干涉仪原理及其传感技术研究

基于内嵌式干涉仪的光纤传感器，因其结构简单灵活、集成度高、稳定性高、生物相容性好、成本低廉等独特优势而得到人们的广泛关注，在光纤传感领域具有重要研究价值和巨大应用潜力。然而，基于传统光纤(单模光纤、多模光纤)的内嵌式干涉仪存在灵敏度低，检测精度低，温度交叉敏感等缺点。因此，本文工作主要是基于微结构光纤，针对现有光纤干涉仪存在的问题，提出、设计并制造了几种能够有效解决目前传感器缺点的新型微结构光纤传

学位

光纤传感器

基于自适应动态规划的非线性控制理论与优化方法的研究

与本文相关的学术论文