Markow决策过程相关硕士博士期刊学术论文 - 搜论网

Markow决策过程相关论文

激励学习的广义平均算法及其收敛性

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行......

期刊

激励学习广义平均算法收敛性 Markow决策过程 Q-学习智能体人工智能 Reinforcement Learning Generalize Avera

看过本文同时还关注