深度逆向强化学习在机器人视觉伺服控制中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lenchoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习在机器人视觉伺服控制中的应用一直都是一个极具挑战性的课题。为了构建一套基于深度强化学习算法的视觉伺服控制系统,本文从两方面展开工作:一方面是强化学习在机器人控制系统中的建模方法,另一方面是提升强化学习模型泛化性能的工程化方法。首先,本文从伺服控制建模的角度出发,讨论了强化学习的基本算法框架。一般而言,基于模型的方式进行机器人控制是强化学习首选方法,这种方法先经过环境模型推断获取实际环境的参数化形式,然后利用这个参数化模型进行策略优化。因此这种方法依赖于人工建模,可拓展性不高。为此,本文介绍了一种不依赖于模型而且具备异策略学习能力的策略引导算法。这种算法采用重要性采样的方式,不仅能够在训练过程中引入外部示教数据,而且能够通过历史数据重采样的方式,提升数据利用效率。此外,策略引导算法在实现策略引导过程中能够结合逆向强化学习,对环境模型进行估计。在这种算法框架下,逆向强化学习作为引入人类知识的途径,是一种重要的强化学习方法。因此本文接下来探讨了具有非确定性策略模型以及非线性回报值函数结构的最大熵深度逆向强化学习方法。这种方法增加了强化学习模型的表征能力,能够完成复杂的视觉伺服控制任务。通过引导策略算法和逆向强化学习的结合,虽然能够表征复杂问题,但是因为引入了很多非线性结构,所以模型训练变得很困难。因此,本文接下来介绍了强化学习的工程优化方法。首先,为了降低视觉伺服应用中图像的高维度影响,文中采用了迁移的卷积网络进行状态压缩和特征提取。然后,为了减少强化学习训练样本,文中介绍了仿真环境进行模型预训练的方法,这种方法中利用域随机的方式扩充训练样本,同时提升强化学习模型的泛化性能。最后,完成视觉模型迁移和决策模型的预训练后,利用真实的示教数据对模型进行微调,可以获得较好的实验效果。最后,在上述理论指导下,设计了机器人视觉伺服控制的强化学习系统。并使用ROS搭建了针对Jetson TX1和UR5机器人的学习及控制软件。在这套系统上完成机械臂伸手实验以后,可以发现基于视觉伺服的强化学习方法能够成功完成复杂的视觉任务,而且有很好的适应能力。
其他文献
目的:探究肝细胞癌中长链非编码RNA(Long non-coding RNA,LncRNA)SNHG16(small nucleolar RNA host gene 16,SNHG16)的表达和作用以及SNHG16通过调节微小RNA-186(microRNA-186,miR-186)促进肝细胞癌增殖,迁移和侵袭的机制。方法:采用实时荧光定量PCR(qRT-PCR)检测SNHG16在肝细胞癌患者肝癌
目的:评价农村社区开展"社区居民抗生素滥用健康教育项目"的效果。方法:在农村选择一个对照社区和一个干预社区,用群组抽样的方法,通过干预前后问卷调查的方法评价干预前后居
明清时期的晋商之所以取得傲视群雄的辉煌成就,与其伦理思想密不可分。晋商在发展进程中,将传统伦理思想以家训的形式,通过对其子孙进行亲自教导和严格训诫,最终形成了独特的
目的:脑胶质瘤是人类中枢神经系统中最常见的原发性肿瘤。尽管目前在手术、化疗和放疗方面取得了很多进展,但恶性脑胶质瘤患者预后仍然很差。脑胶质瘤依赖于肿瘤血管生长。胶
高血压患者,需长期服用降压药。在这很长的时间里,病人往往会因其他的疾病而需要服其他一些药。如何针对高血压患者的不同情况选择抗高血压药物,综合干预高血压危险因素、严格控
目前国内对墓志的研究达到了一个较高的境地,但笔者认为大部分的学者侧重于描述考证且着重于北朝墓志的研究。而近年来出土了很多唐代墓志,山西省汾阳市发现较多,受制于各方面的条件,目前尚无专门发掘整理其书法方面的价值和意义的研究,故笔者通过对汾阳出土唐代墓志书法进行研究分析,研究汾阳出土唐代墓志书法的书法风格及其技法,并论述对笔者创作的影响。
语言迁移现象是一种完成交际任务的策略,在目标语学习中,导致交际失误的因素很多,语言迁移是其中之一。语言迁移应该被看成是完成交际任务的一种策略,所以有时由语言迁移所带来的
1引言共同配送是指多家公司将各自的商品汇总装在同一辆卡车上,共同进行配送工作.由于配送是共同化的,所以这种方式可以提高配送车辆的利用率,从而降低物流成本,增加企业的经
目的:恶性胶质瘤是一种预后不良的疾病,在这项研究中,我们研究了胶质瘤内的Galectin-9/TIM-3/IL-6信号促进肿瘤生长并调节肿瘤免疫微环境,并进一步研究胶质瘤中白介素6(IL-6)
【目的】构建ICU医护人员早期活动知信行情况调查表,调查海口市三甲综合医院ICU医护人员早期活动的知信行情况。分析海口市三甲综合医院ICU医护人员对早期活动的认识、态度以及开展的情况,找出现存问题,为更好的制定和实施科学合理的早期活动方案提供改进依据。【方法】采用德尔菲专家函询法经过两轮专家函询,完成问卷初步编制,通过临床143例样本进行预调查,调整并形成最终问卷。采用随机分层抽样方法,分别对海口