论文部分内容阅读
机器学习分为监督式学习、非监督式学习和强化学习。由于强化学习在学习收敛方面速度较慢,难以在实际控制系统中大规模应用。为解决以上问题,提出一种基于标称控制的监督式强化学习算法,并将其用于机器人的路径规划当中。在训练初始阶段引入导师的先验知识,以增加系统的学习效果,同时逐步弱化导师的监督指导作用,发挥强化学习探索优化的优势,让机器人尽快找到最优路径。针对机器人的路径规划问题,提出其监督式学习算法,进行实验对比分析。结果显示,监督式强化学习能有效降低系统的训练次数,提高机器人路径规划的智能化水平。