策略梯度估计相关硕士博士期刊学术论文 - 搜论网

策略梯度估计相关论文

一种PEGASUS策略梯度算法的理论及应用

尽管策略梯度增强学习算法克服了值函数增强学习算法不能保证收敛的缺点,但是在梯度估计过程中,方差过大,影响了学习性能。PEGASUS......

会议

马尔可夫决策过程增强学习策略梯度估计 PEGASUS算法无人直升机姿态控制

连续时间部分可观Markov决策过程的策略梯度估计

针对连续时间部分可观Markov决策过程（CTPOMDP）的优化问题，本文提出一种策略梯度估计方法．运用一致化方法，将离散时间部分可观Markov决......

期刊

连续时间部分可观Markov决策过程策略梯度估计一致化误差界

看过本文同时还关注