状态集结相关硕士博士期刊学术论文

在大规模随机控制问题中 ,值函数逼近是一种克服维数灾的方法 .考虑平均模型马氏决策规划 (MDP)的状态软集结相对值迭代算法 ,在Sp......

期刊

该文在强调智能体之间相互竞争的基础上,对多智能体系统中的任务分配问题进行了较为深入的研究,主要工作可分为以下几点:分析了多......

学位

在大规模随机控制问题中,值函数逼近是一种克服维数灾的方法.考虑平均模型马氏决策规划(MDP)的状态软集结相对值迭代算法,在Span压......

期刊

提出了一种自适应状态集结因子化SARSA(λ)强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态......

期刊

用更为紧凑的方法表示和存贮值函数，以求解大规模平均模型Ｍａｒｋｏｖ决策规划（ＭＤＰ）问题。通过状态集结相对值迭代算法逼近值函数，用Ｓｐａｎ半范数和压缩映原......

期刊