基于深度强化学习的机械臂抓取与码垛算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:MENTAL2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了适应现实世界中复杂多变的环境,智能机器人需要感知环境并做出反应,并通过多个动作来完成特定的任务。在工业生产场景下,现有的机械臂系统大多是基于人工设定的规则来执行动作,只能在固定位置抓起特定的物体,并将其放置到提前设定好的位置上。这使得其无法针对物体的形状尺寸选择合适的码放方式,只能处理固定位置形状单一的物体码放问题。在学术研究领域中,许多关于机械臂操作的研究都仅仅关注于抓取这一种动作,而忽视了抓取之后应该进行的操作,例如将抓起的物体码放在另一个平台上。为了解决上述不足,本文提出了码垛导向的抓取任务学习方法,可以端到端的通过自监督学习完成抓取-码垛任务。由于深度强化学习在近几年发展迅速,本文将其引入到所设计的系统中,利用深度强化学习提供的决策能力,由相机拍摄的图片理解环境,在不断试错的过程中学习并做出更优的动作决策。在本文中,无模型的深度Q学习方法被用于从零开始学习抓取-码垛策略。具体而言,本文通过两个网络将图像映射到机械臂的动作:抓取网络(Grasping Network,GNet)使用桌面和码放堆的图像来推断抓取的位置和方向,码放网络(Stacking Network,SNet)使用码放堆的图像来推断放这个物体的最优位置。为了实现长远规划,两个图像的信息在抓取-码放网络(Grasping for Stacking Network,GSN)中进行了 融合。考虑到强化学习本身所具有的样本效率低和难以训练的特点,本文设计了三个辅助任务,帮助网络提取任务相关特征,并加速收敛过程,提升最终表现。抓取辅助任务为桌面物体数量预测任务,码放辅助任务为码放堆高度预测任务。抓取-码放协同辅助任务是以物体为中心的特征学习任务,这一任务帮助抓取网络和码放网络融会两者的信息进行决策。本文在V-rep仿真环境进行训练并测试对比基线方法和消融实验,然后在真实场景中评估了 GSN和基线方法在抓取-码垛任务上的表现。最后证明了提出的抓取-码放网络可以胜任尺寸不同随机摆放物体的码垛任务。
其他文献
信息化是当今社会的时代标签。占领信息的制高点,不断提高信息的安全性以及快速交换的能力,是国家科技发展的一个重要方向。轨道角动量(OAM)作为电磁波除了幅度、相位、极化
由于具有良好的溶液加工性、量子限域效应和多激子效应,胶体硫化铅(PbS)量子点材料展现出优异的光电器件性能,受到了研究人员的广泛关注。短短10年时间,基于溶液法制成的PbS量子点单节太阳能电池的认证效率最高超过12%。基于PbS量子点的光伏器件如此迅速发展,有很大一部分来自于器件界面电荷传输层的调控。然而,和同时期的有机以及钙钛矿薄膜太阳能电池相比,可用于量子点太阳能电池的高效界面材料不管是种类还
钻孔灌注桩具有无振动、无挤土、噪音小、宜于在城市建筑密集地区使用等优点,在建筑工程领域得到较为广泛的应用。钻孔灌注桩由于桩径大入土深,成孔施工在地下、水下等环境完
压致荧光变色材料是一类新型的刺激响应“智能”材料,该材料在压力传感器、记忆器件、安全墨水和光学记录等高科技领域具有非常重要的应用价值。近来研究成果表明,刚性π-共轭交叉形荧光染料有着独特的分子结构和迷人的光学性能。因此,论文以合成D-A结构的具有AIE性能的交叉形压致荧光变色分子为出发点,制备了一系列咔唑、四苯乙烯和三苯胺修饰的以苯环为核心的交叉形固态荧光分子,并研究了它们的分子内电荷转移(ICT
深度强化学习算法研究是近年来机器学习领域的一个研究热点。经验重放机制是深度强化学习算法中的一项重要技术,如何提高样本利用率并解决经验重放的固有缺陷是深度强化学习
工程结构维护问题是今后经营南海必将面临的一个难题。科学统筹科研资源,从而保障南海岛礁工程结构更好服务于我国政治、经济、外交和军事大局具有重要现实意义。本文采用AHP
钢轨打磨是一种铁路钢轨广泛应用且经济的维护技术。在钢轨打磨过程中,砂轮与钢轨之间的相互作用非常复杂,影响打磨效果及打磨效率。因此,开展钢轨打磨过程中钢轨材料去除行为研究,对优化钢轨打磨参数、提升打磨效率具有重要的指导意义和工程价值。本文基于简化后的虚拟砂轮模型,建立了钢轨打磨三维有限元仿真模型,根据钢轨打磨模拟试验所得试验数据,利用DEFORM-3D有限元软件仿真模拟了钢轨打磨过程,分析了不同打磨
Callipeltin B是从海洋海绵动物体Callipelta sp中分离出的新型环肽类化合物,Callipeltin B是由天然氨基酸L-亮氨酸、D-精氨酸和非天然氨基酸(2R,3R)-β-甲氧基酪氨酸、(3S,4R)-3,4-二甲基-L-焦谷氨酸、D-别苏氨酸、N-甲基-L-丙氨酸和N-甲基-L-谷氨酰胺构成的环七肽,该环肽对肿瘤细胞有广谱的细胞毒性。由于Callipeltin B分子结构中
企业刑事合规,是一个最近开始盛行且极具张力的概念,既体现了积极、全面预防企业犯罪的社会惩罚理念,又体现了企业先进的治理方式和合规经营理念,更具有出罪机能。企业刑事合规的建立与完善不仅仅是企业内部治理的的需要,更与国家刑事政策的积极倡导、激励和反向归咎密不可分。“远芳侵古道”的情势之下,中国企业也开始意识到合规经营的重要性,但是目前我国在企业刑事合规构建方面总体上仍然停留在学界探讨阶段。本文拟通过对
山西省公益林政策性保险试点工作开始于2013年,如何根据公益林政策性保险现状制定适用于山西省公益林政策性保险绩效评价的具体指标体系是本文要解决的问题。通过研究试图对