论文部分内容阅读
球杆系统可用来检验控制策略的效果,是控制理论研究中较为理想的试验手段。球杆系统本身是一个典型的非线性不稳定系统。它是一个通过控制杆的仰角而使杆上的小球稳定在任何指定位置上的装置。杆的一个很小的倾角就会使小球在杆上以一个正比于杆倾角正弦值的加速度运动。主要的控制目的就是把小球随时定位在杆的指定位置。
近似动态规划(Approximate Dynamic Programming,ADP)是用近似的方法求次优解而非最优解,其最大的好处是可以避免动态规划产生的“维数灾”问题,并使这个理论的实际应用成为可能。启发式动态规划(Heuristic Dynamic Programming,HDP)是近似动态规划中最常用的一种表现形式。
本文首先介绍了球杆系统的概念及研究现状,近似动态规划方法的概况以及发展阶段。其次,系统阐述了近似动态规划方法的理论基础,以及该方法的原理结构,并对其中的一种表现形式启发式动态规划的基本原理,基于神经网络训练过程做了详细的介绍,然后,具体介绍了球杆系统的原理及特性,对本文所采用的两种球杆系统的结构、参数做了具体的说明。
作为本文的重点与核心部分,先是对HDP算法进行了改进,接着利用改进的HDP算法对两种球杆系统进行了仿真控制。对于线性化的支点位于中间的球杆系统,设计了改进的HDP控制器,介绍了训练的过程,设计步骤,并进行了控制效果分析;通过非线性系统引例引入,利用改进的HDP算法对非线性的支点位于左侧的球杆系统进行了仿真控制研究,同时也说明了神经网络训练的过程,以及控制器设计的步骤。结果表明,利用改进的HDP算法可以把小球稳定控制在杆的中心处,获得了较好的控制效果,验证了该算法的有效性。