塑造奖赏相关论文
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制......
强化学习系统以Agent与环境的长期交互为主要特征。该交互可以建模为一个马尔科夫决策过程(MDP)。该环境可能是未知的、动态变化的......
学位