论文部分内容阅读
本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法.该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策略.仿真实验表明此强化学习方法学习到的控制策略与直接求解Riccatti方程所得控制策略非常接近.