状态集结相关论文
在大规模随机控制问题中 ,值函数逼近是一种克服维数灾的方法 .考虑平均模型马氏决策规划 (MDP)的状态软集结相对值迭代算法 ,在Sp......
该文在强调智能体之间相互竞争的基础上,对多智能体系统中的任务分配问题进行了较为深入的研究,主要工作可分为以下几点:分析了多......
在大规模随机控制问题中,值函数逼近是一种克服维数灾的方法.考虑平均模型马氏决策规划(MDP)的状态软集结相对值迭代算法,在Span压......
提出了一种自适应状态集结因子化SARSA(λ)强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态......
用更为紧凑的方法表示和存贮值函数,以求解大规模平均模型Markov决策规划(MDP)问题。通过状态集结相对值迭代算法逼近值函数,用Span半范数和压缩映原......