塑造奖赏相关硕士博士期刊学术论文 - 搜论网

塑造奖赏相关论文

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制......

期刊

强化学习 Sarsa(λ) 梯度下降势函数塑造奖赏 reinforcement learning Sarsa（λ） gradient descent pot

用于强化学习的值函数逼近方法研究

强化学习系统以Agent与环境的长期交互为主要特征。该交互可以建模为一个马尔科夫决策过程(MDP)。该环境可能是未知的、动态变化的......

学位

强化学习值函数逼近塑造奖赏最小二乘支持向量回归 RBF网络

看过本文同时还关注