基于深度强化学习的机器人抓取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wolfalone0319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对程序化的机器人与计算机系统在非结构环境下面对大量未知物体时难以建立合适的数学模型实现有效抓取的问题,本文基于深度强化学习方法对机器人在非结构环境下的抓取问题进行了研究。首先,根据抓取任务的特性,针对深度策略性梯度(DDPG)算法进行策略优化时样本利用率低的问题,对DDPG算法进行改进,提出了加权采样DDPG算法,在仿真环境下对上述两种方法进行了对比实验,加权采样DDPG述算法相对DDPG算法学习速度提高了2倍;针对深度强化学习过程探索效率低的问题,提出了目标检测和深度强化学习的融合算法,将目标检测算法获取的目标物体所在区域作为深度强化学习算法的先验,使深度强化学习在探索阶段能够获得更多有效的学习样本,进而提高深度强化学习算法的学习速度;并在仿真环境下将此方法与奖励引导算法进行对比实验,实验表明该算法相对于引导算法学习速度提高了3倍左右。其次,针对抓取时物体分布密集的场景,物体之间相互影响抓取轨迹并不能直接采样单物体抓取方法的问题,提出了基于深度Q网络的密集物体抓取顺序规划方法,优先抓取易抓取的物体,为难抓取的物体清楚抓取障碍,进而提高抓取成功率,仿真实验验证该方法相对无规划方法能够提升35%的抓取成功率;针对只采用抓取动作在密集场景下的局限性,提出了推抓结合的抓取策略,物体密集分布时利用机器人推动物体以创造更大的抓取空间进而提高抓取成功率,通过仿真实验验证了该方法能够较好的完成只靠抓取动作难以抓取成功的场景。最后,在仿真环境下对基于深度强化学习机器人抓取方法进行了实验对该方法的性能进行了评估,在仿真环境下该方法抓取成功率稳定在85%左右。同时针对直接采用深度强化学习算法在实际机器人进行训练对机器人损耗比较大的问题,采用在仿真环境下对机器人进行预训练,在预训练时添加迁移学习的技巧,使得训练的策略更接近真实的环境,通过实验验证了此迁移方法获得的模型参数能够较好的应用到实际环境中。
其他文献
<正>许多年来,一直有关于"维纳斯神像"的双臂究竟如何摆放的种种争论。最近有人发现了19世纪法国舰长杜蒙·居维尔的回忆录,解开了维纳斯神像断臂这个100多年来的
<正>在议论文写作中,收好篇的重要性丝毫不亚于开好头——两者都是重要的环节,构思时理应多费心思,细加斟酌。如果前文论证已然充分,阐释已经透彻,那么,结尾处不妨"戛然而止"
<正>每年的3月15日是“国际消费者权益日”(International Dayfor Protect- ing Consumers’Rights)。1983年,国际消费者联盟组织把每年的3月15日定为国际消费者权益日,并规
在综合分析房地产业可持续发展内涵基础上,文章选取18项指标构建房地产业可持续发展评价指标体系。运用因子分析法对2003—2010年期间桂林房地产业的综合发展指标基本数据进
词语移用 (一些词语走出它们原来所属的行业领域 ,进入了社会通用词库 )是一种社会现象 ,是由于改革开放以来我国市场经济的发展 ,科学技术的普及以及人们对语言求新、求异的
<正>今年的双十一狂欢有些特别,汽车销售加入了电商促销,以汽车之家和易车网为代表的汽车门户网站高调宣布了在双11推出购车节等活动,并将售价降到最低。节日过后,几家汽车网
法学人才培养模式改革是法学教育改革的核心和重点,法学专业研究性人才培养模式是在对传统本科科研培养模式的批判和重构中逐渐形成的,通过对教育思想、培养过程、培养制度、
体育游戏作为一个小学体育教育的重要形式,体育教育对孩子的成长有着重要的作用,所以我们要充分发掘和培养学生的学习兴趣,以实现教学的有效提升。
GPS技术被广泛应用于生活中的各个领域,已成为人们生活中重要的一部分。介绍了GPS接收机的日常检验及使用方法,并就GPS接收机的日常维护工作进行了概述。
苔藓结皮是生物土壤结皮的高级阶段,是古尔班通古特沙漠重要的地被景观,在防风固沙方面发挥着重要的生态作用。利用生物结皮人工固沙已成为干旱区沙漠环境保护的重要举措,受到了