策略梯度估计相关论文
尽管策略梯度增强学习算法克服了值函数增强学习算法不能保证收敛的缺点,但是在梯度估计过程中,方差过大,影响了学习性能。PEGASUS......
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决......