论文部分内容阅读
倒立摆系统的控制研究在控制理论及其应用领域里,长期以来引起研究人员极大的兴趣。它是检验各种新的控制理论和方法的有效实验装置,作为一个高阶、非线性、不稳定系统,它的稳定、随动控制相当困难,在控制领域中是一个极具挑战性的难题。近似动态规划结合了神经网络、经典动态规划思想等内容,可以解决被控对象难建模问题和避免“维数灾”问题,是一种先进的控制方法。本文主要研究近似动态规划的ADHDP(Action-Dependent Heuristic Dynamic Programming,执行依赖启发式动态规划)和ADDHP(Action-Dependent Dual Heuristic Programming,执行依赖双启发式动态规划)这两种方法。通过ADHDP和ADDHP方法的原理分析,并根据倒立摆的状态变量,构建了评价网络和执行网络。把系统状态变量和执行网络的一个输出作为评价网络的输入,评价网络的输出作为代价(cost)函数的近似,通过最小化该近似值的误差来调整评价网络的权值,再通过调整后的评价网络来影响执行网络的权值调整,使得执行网络的输出产生次优控制信号。两个网络的训练误差函数都应用了Bellman最优原理的思想,其中,评价网络训练实际上包含了一个模型网络,这样就不需要对被控对象建立模型,并简化了结构。对倒立摆控制进行实验仿真,结果表明:响应速度较快,控制效果良好。论文中有关控制器的设计和控制算法的实现,对今后的实际应用具有一定的理论和实际意义。