基于ADP的非线性系统自学习最优控制方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:aghiiuooo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自适应动态规划(Adaptive dynamic programming,ADP)是最优控制领域新近兴起的一种近似最优方法,其融合了动态规划、强化学习和神经网络的思想,有效地克服了传统动态规划方法中“维数灾”的问题。在求解最优控制中的哈密顿-雅克比-贝尔曼(Hamilton-Jacobi-Bellman,HJB)方程时,ADP方法采用了函数近似结构来获得HJB方程的解,然后利用迭代方法获得最优控制策略。目前,ADP算法主要分为值迭代和策略迭代两种,本文基于这两种算法,提出了广义策略迭代ADP算法,并首次将上述算法应用于跟踪系统和带执行器饱和的被控系统上。本文的主要工作和贡献总结如下:  1、本文提出了广义策略迭代ADP算法。与传统的ADP迭代算法相比,广义策略迭代ADP算法有两个迭代指标i和j,在i迭代过程中,广义策略迭代ADP算法只需要更新迭代控制律而不需要求解HJB方程。而且文献[1]指出,几乎所有的强化学习和自适应动态规划算法都可以用广义策略迭代算法描述,更加说明了研究广义策略迭代ADP算法的普遍意义。  2、本文将广义策略迭代ADP算法应用于跟踪系统中。对于非线性离散跟踪系统,通过系统转化将跟踪系统转化为一般非线性系统,采用广义策略迭代ADP算法,得到最优跟踪控制器,利用神经网络实现跟踪系统的最优跟踪,并对迭代算法的收敛性和控制系统的稳定性进行了证明。两个仿真实验的结果表明了所提方法是有效可行的。  3、本文将广义策略迭代ADP算法应用于带执行器饱和的被控系统中。受文献[2]的启发,采用新的效用函数来保证输出的控制信号在给定范围内,进而得到新的性能指标函数,然后利用广义策略迭代ADP算法处理执行器饱和问题同时得到最优控制器,并给出相应的证明。最后进行仿真实验,通过实验结果,可以发现广义策略迭代ADP算法有效地解决了饱和系统的最优控制问题,但是如果要克服执行器饱和的情况,就需要牺牲系统达到稳定的时间。
其他文献
优化问题广泛存在于日常生活、生产实践和科学研究中。优化方法则是以数学为基础,用于求解各类优化问题的应用技术。如何设计高效的优化方法求解优化问题一直是研究的热点。受
永磁同步电动机具有体积小,损耗低,效率高等优点,随着电力电子技术、微电子技术、新型电动机控制理论和稀土永磁材料的快速发展,永磁同步电动机得以迅速的推广应用。但是永磁同步
由于永磁同步电机具有效率高、功率密度大、节能效果好、运行可靠等优点,使其在工业、农业以及航天等领域得到广泛的应用。本文采用Motorola公司生产的专用于电机控制的DSP56F
场景识别是计算机视觉的一个重要而有基础的问题,在图像分类、图像检索以及视频监控等领域有着广泛而又重要的应用,长期以来受到广大研究者的关注。与物体识别问题相比,场景是一
近年来,随着对新型制导武器研究的不断深入,对其舵机伺服系统的要求也日益提高,伺服系统不但要具有快的动态响应和高的动、静态精度,而且要对参数的变化和扰动具有不敏感性。因此
煤的气化在以煤为主要原料的综合性化工企业中是非常重要的一个环节。德士古煤气化炉为流程后续系统提供合成气作为原料,它的稳定运行是后续系统可靠运行的保证。但是对气化
生物活体是包含着众多相关成分及其相互作用的整体,是一个多层次、多功能的复杂系统。随着分子生物学各种理论和技术研究的发展,生物学面临的一个挑战是如何在系统水平上研究由
在图像引导的脊椎手术中,实时高效的2D/3D配准是一项重要且具有挑战性的任务。通常的2D/3D配准一般是将三维模型投影到2维平面,然后进行2D-2D的配准。由于投影空间涉及到3个平
本文针对鲁棒控制设计问题,提出了一种改进多目标粒子群算法—动态多目标粒子群算法,将其应用到H2/H∞控制和μ综合中,并将其与已有的鲁棒控制设计方法做了比较,本文主要研究
神经组织微观结构重建是探索和理解神经功能的重要环节,对于神经回路结构解析、神经性疾病机理探索、神经功能和结构映射等研究具有重要的意义。因此,基于神经电镜图像进行大规