论文部分内容阅读
自适应启发评价(AHC)增强学习结构分别逼近马尔可夫决策过程的值函数和策略函数.策略梯度增强学习能够将随机不确定的马尔可夫决策过程转换为确定性的马尔可夫决策过程。通过将AHC增强学习和策略梯度增强学习相结合,对PID控制器参数进行在线自适应整定,实现对无人直升机姿态控制性能的在线优化。仿真结果表明.与固定PID参数控制器相比,该算法能在线调整控制器参数.并很好地控制了无人直升机的悬停姿态。