论文部分内容阅读
为了实现无模型离散时间非线性动态系统的最优控制,提出了一种新的基于数据驱动的神经动态规划方法。该方法利用Q函数的残差与基函数的内积为零,同时控制策略的残差与基函数的内积也为零,从而得到控制方程。接着使用离线数据集与在线数据来迭代更新神经网络的系数,从而得到近似最优的控制策略,本文还证明了该算法是收敛的。