论文部分内容阅读
针对移动机器人的导航问题,本文提出一种具有连续向量输出的再励学习算法(Reinforcement Learning with Continuous Vector output:CVRL).CVRL具有层次结构,低层是单元动作网络层,通过组合动作产生连续向量输出;高层是建立在组合单元动作空间上的Q学习单元,实现组合动作的选择,文中给出了CVRL导航控制器的具体实现,并通过仿真实验验证了其有效性。