递阶再励学习相关论文
提出状态探索密度的概念,通过检测状态对智能体探索环境能力的影响来发现学习的子目标并构建对应的 Option.用该算法创建 Option ......
Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和......
在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线......