论文部分内容阅读
随着人工智能时代的到来,机器人越来越广泛的应用于各行各业,在室内建筑工地场景下,机器人能够节省大量劳动力和大量时间。视觉能够为机器人提供大量信息,本文旨在模仿人类视觉认知机制,为机器人赋予目标检测及定位的视觉认知能力。传统基于双目视觉的深度相机对环境光照非常敏感,在光照较强和较暗的情况下双目视觉算法效果会急剧下降,同时在单调缺乏纹理、缺乏视觉特征的场景下,双目视觉算法还会出现特征匹配困难的情况。此外,基于飞行时间法的深度相机,由于技术不成熟,存在功耗较大、成本较高以及深度图像分辨率较低的问题。所以本文采用双目结构光相机来完成定位功能。近年来,深度学习在计算机视觉领域有了飞速发展,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成、复杂的多任务网络模型,其中的代表就是实例分割模型。实例分割是一个比较综合的问题,它融合了目标检测、图像分割以及目标分类,并且检测性能也是领域中的佼佼者。因此,为了使机器人更好更快地识别物体并判断物体的位置,本文提出一种室内基于Mask R-CNN模型和双目结构光相机的目标检测和定位方法。本文的主要研究工作内容如下:1.研究并实现Mask R-CNN模型,同时对模型性能进行优化。具体方式是通过调整Mask R-CNN模型的训练方式,其一是忽略训练集中提供的目标框,改为采用自己生成目标框的方式,选择包含目标物体所有像素的最小框作为边界框;其二是采用梯度裁剪的方式,来防止梯度爆炸。从而使得Mask R-CNN模型效果得到提升,至此,使用Mask R-CNN模型完成了对图像精确的目标检测以及像素级分割。2.研究深度相机测距技术,并结合深度学习对测距效果进行提升。目前采用深度相机对物体进行测距的主流方式是对整个目标框中的每个像素的深度值求平均,但是目标框中并不是每个像素都属于目标物体,所以这种方式必然会带来误差。而本文通过Mask R-CNN模型对目标框中的物体进行像素级分割,可以过滤掉大部分不属于目标的像素,从而提升测距效果。至此,使用Mask R-CNN模型结合双目结构光相机完成了目标检测和定位功能。3.最后根据目标检测及定位结果,使用丹麦Ur公司下的Ur10机械臂来进行目标捕获实验,最终通过实验证明,本文提出的室内基于Mask R-CNN模型和双目结构光相机的目标检测和定位方法的有效性。