论文部分内容阅读
针对动态规划中的“模型灾”和“维数灾”问题,提出了不需要数学模型和最优控制的执行依赖启发式动态规划(Action-dependent Heuristic Dynamic Programming,ADHDP),而ADHDP执行网络和评价网络采用基于监督学习的误差反向传播(BP)算法,但BP算法收敛速度较慢.在此基础上建立了以径向基神经网络(RBFNN)为执行网络和评价网络,并以梯度下降算法为网络的在线学习算法,对ADHDP的控制算法进行改进.通过用倒立摆学习控制模型进行仿真,验证了改进的ADHDP算法具有良