论文部分内容阅读
强化学习为开发模拟特性技能提供了一种很有效的方法,但强化学习通常需要稀疏手动的来获取特征。依赖于深度强化学习,我们引进了动作-评价和专家学习混合的学习方法(MACE)来学习动态地形自适应技能,把高纬度状态和地形描述作为该方法的输入,参数化的跳跃或行走作为输出动作。MACE方法比单一的动作-评价方法的学习效率更快,从而使动作-评价和专家学习变得更具独特性。