论文部分内容阅读
智能机器人是具有感知、思维和行动能力的机器,可以像人类一样的去学习,在面对新问题时可利用已习得的知识来快速处理新问题,以适应多变的环境。机器人运动控制是一类典型的序列决策问题:机器人在观测到环境状态后要立即做出具有连贯性的动作反应。强化学习是机器学习的一个重要分支,可用于解决序列决策问题。近年来有大量研究应用深度强化学习算法来处理机器人运动,如基于策略学习方式的演员-评论家(Actor-Critic)算法,深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法以及异步优势演员-评论家(Asynchronous Advantage Actor-Critic)算法等等。这些算法在解决单一任务中获得了较好的效果,但这些算法需要消耗大量的时间来学习,同时这些算法训练出的智能体缺乏泛化能力,存在所谓灾难性遗忘(Catastrophic forgetting)问题,不能利用在先前任务中学习到的经验,机器人无法快速适应多变的环境。元学习(Meta Learning)目标是通过稀疏样本就可以学习到任务之间的共性和特异性,以提高智能体的快速适应能力。在强化学习的基础上加入元学习,使得强化学习智能体拥有可以通过少量的学习资料来快速的适应环境中各种不同任务的能力,从而达到真正类人的智能。本文研究在MAML(Model-Agnostic Meta-Learning)框架基础上,在每轮训练中求两次梯度及应用TRPO(Trust region policy optimization)梯度优化算法,使智能体获得快速学习和适应新任务的能力。(1)在MAML算法的框架下,研究基于深度强化学习算法中的近端策略优化(PPO)算法进行新算法拓展,为原策略梯度算法添加标签网络来优化前期动作选择。(2)加入优势函数,增大优质动作在未来Agent与环境交互时出现的幅度,提高智能体的学习能力。(3)同时研究了在MAML的基础上通过添加外部环境上下文参数以及OU动作噪音来尝试加快智能体的适应速度。(4)有关算法在Mujoco模拟环境中进行了仿真测试,使用了基准测试环境中的半猎豹(HalfCheetah)以及3D蚂蚁(Ant),智能体需要控制半猎豹与蚂蚁采用指定的速度奔跑以及在指定的方向上奔跑,任务获取的方式采用随机均匀分布和随机二项分布方式。仿真实验结果表明,本文中提出的算法可提高智能体面对新任务的适应能力。