基于元强化学习的机器人运动控制研究

来源 :浙江工商大学 | 被引量 : 2次 | 上传用户:wd070703332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能机器人是具有感知、思维和行动能力的机器,可以像人类一样的去学习,在面对新问题时可利用已习得的知识来快速处理新问题,以适应多变的环境。机器人运动控制是一类典型的序列决策问题:机器人在观测到环境状态后要立即做出具有连贯性的动作反应。强化学习是机器学习的一个重要分支,可用于解决序列决策问题。近年来有大量研究应用深度强化学习算法来处理机器人运动,如基于策略学习方式的演员-评论家(Actor-Critic)算法,深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法以及异步优势演员-评论家(Asynchronous Advantage Actor-Critic)算法等等。这些算法在解决单一任务中获得了较好的效果,但这些算法需要消耗大量的时间来学习,同时这些算法训练出的智能体缺乏泛化能力,存在所谓灾难性遗忘(Catastrophic forgetting)问题,不能利用在先前任务中学习到的经验,机器人无法快速适应多变的环境。元学习(Meta Learning)目标是通过稀疏样本就可以学习到任务之间的共性和特异性,以提高智能体的快速适应能力。在强化学习的基础上加入元学习,使得强化学习智能体拥有可以通过少量的学习资料来快速的适应环境中各种不同任务的能力,从而达到真正类人的智能。本文研究在MAML(Model-Agnostic Meta-Learning)框架基础上,在每轮训练中求两次梯度及应用TRPO(Trust region policy optimization)梯度优化算法,使智能体获得快速学习和适应新任务的能力。(1)在MAML算法的框架下,研究基于深度强化学习算法中的近端策略优化(PPO)算法进行新算法拓展,为原策略梯度算法添加标签网络来优化前期动作选择。(2)加入优势函数,增大优质动作在未来Agent与环境交互时出现的幅度,提高智能体的学习能力。(3)同时研究了在MAML的基础上通过添加外部环境上下文参数以及OU动作噪音来尝试加快智能体的适应速度。(4)有关算法在Mujoco模拟环境中进行了仿真测试,使用了基准测试环境中的半猎豹(HalfCheetah)以及3D蚂蚁(Ant),智能体需要控制半猎豹与蚂蚁采用指定的速度奔跑以及在指定的方向上奔跑,任务获取的方式采用随机均匀分布和随机二项分布方式。仿真实验结果表明,本文中提出的算法可提高智能体面对新任务的适应能力。
其他文献
农产品质量安全是一个动态的发展概念。本文分析了国内外农产品质量安全现状和我国存在的主要问题,提出了相应的对策,以推进我国农产品质量安全体系的发展。
某别墅由于附近有一高边坡支护施工和其基础土层压实度不足,发生不均匀沉降并引起房屋倾斜,本工程先设置钢管桩进行基础加固,再通过断柱抬升施工,对房屋进行纠偏处理,文中介
为维持21世纪的国际竞争优势,提高兼容性,实现欧洲的一体化,欧盟和欧洲各国大力推进工程教育改革:一方面建立了一致的、与国际接轨的工程教育学位体系;另一方面,实行模块化的
"劳动歌"是产生最早的语言艺术之一,是所有民歌的源流。现行羌族民歌音乐方面的研究成果中,对"劳动歌"的词意以及它所包含的内容上的范畴产生着模糊的定论。分析与归纳"劳动
移动通讯网络技术的不断升级、智能手机以及平板电脑等终端设备的不断普及,为弹幕视频的发展提供了良好的环境,拥有弹幕功能的网络视频已经逐渐成为主流,获得了大多数年轻人
凡生育年龄的妇女,配偶生殖功能正常,男女双方同居1年以上,未避孕而未受孕者;或曾经受孕而1年不孕者,称为不孕症。前者称为"原发性不孕症",古称"全不产";后者称为"继发性不孕症",古
<正>1 引言 在数值计算中,有许多问题最后归结为三对角矩阵的计算,因此研究它们的计算方法是有意义的。此外,有些三对角阵的计算方法可以做为带状阵计算的借鉴。 本文讨论
政治作为初中教学中的基本学科,旨在通过此门课程指引学生正确的价值观念。因初中政治课堂以理论灌输为主,不可避免地会让学生产生枯燥单一的感受,若想提高政治课堂教学的有
<正>一、用"疑"的态度读书每遇被大家都叫好的书,我们都习惯于用敬畏或崇信的态度去读,而很少想到这样子读书有被书误导的可能.鉴于此,我希望教师能够讲究用"疑"的态度来读、
环境规划是一门新兴学科 ,有许多方面需要发展与完善。本文对其发展现状、存在问题等进行了分析 ,并对其今后的研究重点和发展趋势进行了探讨。