论文部分内容阅读
针对机器人在杂乱环境下抓取未知物体的鲁棒性和实效性较差的问题,本文主要对基于深度学习的抓取配置预测算法进行了深入地研究。考虑到多模态数据可以显著改善多种计算机视觉任务的效果,本文引入了 RGB-D图像以增强特征的多样性和显著性。同时,本文还设计了一个由Realsense视觉平台引导的机器人智能抓取系统,旨在实现算法落地以及改善机器人对外界环境的理解能力。首先,本文采用了一种简化的“点线法”来定义二指型夹持器在平面内的抓取配置模型,并以此作为算法预测的目标。针对GG-CNN算法泛化能力不足的问题,受到多尺度特征融合及快速语义分割思想的启发,并且结合Focal loss和smooth 11 loss,本文提出了一个独立于目标检测且端到端的抓取配置稠密预测算法,用于生成每个像素对应的抓取参数及全局的最优抓取配置。基于Jacquard抓取数据集,文章分别介绍了抓取配置真值的标注策略和数据预处理流程,并完成了算法的训练及验证。本文提出的算法在验证集达到了 86.1%的预测准确率和29 FPS的处理速度,并且在不同操作场景下对24种家居物体的测试中达到了 96.3%的平均准确率和19 FPS的处理速度,较GG-CNN有显著的泛化能力提升。其次,本文提出了一个抓取配置映射策略,实现了 RGB-D图像到机器人抓取位姿的转化。基于Realsense平台,本文深入研究了针孔相机模型、结构光深度测量与图像配准的基本原理,并求解了 RGB相机和红外相机的固有参数与外参数矩阵。针对原始Depth图像因噪声和缺失数据较多而难以应用的问题,本文设计了一个用于图像修复和增强的级联式图像处理框架;而对于抓取位姿的求解问题,则详细探讨了抓取配置参数的映射准则,并给出了具体的位姿变换。然后,基于Pyglet框架,本文开发了一个用于最优抓取配置实时预测和抓取位姿3D可视化的软件工具,便于提高算法在不同操作场景下的适应性和调试效率,并且完成了抓取位姿的生成实验。目标抓取位姿的在线解算结果及软件呈现的可视化效果不仅验证了图像处理框架和抓取配置映射准则具有较高的可靠性,还证明了抓取系统具有较高的定位精度和计算效率。最后,本文基于ROS开发平台搭建了一个机器人仿真抓取系统,并根据具体的目标抓取策略和RRT-connect算法执行路径规划实验。实验结果表明,借助Octomap技术实现对操作场景的重建可以有效帮助机器人在抓取过程中避免与障碍物发生碰撞,进而提高系统在杂乱环境下的适应能力。