论文部分内容阅读
近年来,随着国家经济和科技的快速发展,社会生产生活与机器人技术相结合的越来越广泛;同时随着基于深度学习的计算机视觉处理算法及计算硬件的快速发展,机器人与深度学习相融合发展的智能型机器人已经成为研究的热点与重点。针对机器人对抓取目标抓取角度检测精度不高与抓取点定位不准确的问题,本研究提出了一种基于卷积神经网络处理机器人视觉信息的二阶段检测方法,实现对抓取目标的快速抓取姿态检测与抓取点精确定位。第一阶段检测利用多抓取目标检测算法,完成对机器人系统输入图片中的抓取目标进行多抓取目标检测,其目的是在多个目标中可以找到待抓取目标,网络输出每个抓取目标的位置和类别,并将待抓取目标的区域特征图输出给下一阶段。对Cornell数据集进行裁剪扩充,依据日常类别将数据集分成20个类,按照Pascal VOC数据标注格式对数据集进行标注。训练端到端的多抓取目标检测模型,算法模型对抓取目标识别的均值平均精度达到83.2%,处理每张图片的耗时少于0.04秒。多抓取目标检测模型输入的多抓取目标图片输出它们的位置和类别,为下一阶段姿态检测与定位缩小检测范围,减少复杂环境背景的影响。第二阶段将第一阶段多抓取目标的输出作为输入,对抓取目标进行姿态检测与抓取点定位。相较之前单一的姿态角度与定位分类或回归模型,本研究方法提出区域姿态检测与定位算法模型,在网络中将抓取目标的姿态角度采用分类的方式输出,抓取点位置坐标采用回归方法输出。对Cornell数据集重新标注抓取角度标签和抓取点,并训练端到端的姿态检测与定位检测模型,然后将第一阶段输出的区域抓取目标输入到训练好的模型中,模型能够对区域抓取目标图像进行姿态检测并预测抓取点位置。模型在实例检测和对象检测测试集上分别取得了96.18%和96.32%的准确率,对于每一幅图像的处理耗时不到0.1秒。模型能够对多抓取目标进行高准确率的姿态角度检测和抓取点定位的同时,在检测的实时性上进一步优化。综上所述,本研究提出的对多抓取目标姿态检测与定位的二阶段检测方法,能够实时的对复杂背景图像中单个或多个抓取目标进行快速准确的姿态检测与定位,并具有很强的鲁棒性和稳定性。