论文部分内容阅读
6D姿态估计广泛应用于机器人抓取、增强现实和自动驾驶等领域,然而,现实物体种类的多样性以及复杂的场景环境都对6D姿态估计提出了许多挑战。针对上述问题,为提高6D姿态估计方法的实时性、准确性和鲁棒性,本文对基于深度网络的目标6D姿态估计算法进行研究,主要研究内容如下:(1)针对基于深度学习的YOLO-6D速度精度均衡有限的问题,提出了一种融合注意力的轻量级姿态估计算法CA-YOLO-6D。首先,采用轻量级YOLOv4-Tiny作为骨干网络进行模型加速。然后,引入坐标注意力(Coordinate Attention,CA)提升网络对纹理特征的提取能力。最后,在公开数据集Linemod上进行测试,实验表明改进后的CA-YOLO-6D在2D投影(2D Projection)指标精度提升了2.95%,模型三维点集的平均距离(Average 3D distance of model vertices,ADD)指标精度提升了3.70%,平移距离与旋转角度误差(m cm for translation and n°for rotation,5cm,5°)指标精度提升了5.84%,运行速度提升了74%。(2)针对遮挡场景下特征缺失导致物体位姿估计精度较差的问题,基于PVNet(Pixel-wise Voting Network)提出了一种结合注意力机制的像素级6D姿态投票网络AM-PVNet(Attention Module-PVNet)。首先,对每个像素指向关键点的向量场进行预测,并基于向量场对关键点位置进行投票,使网络更加关注局部信息,减少遮挡或者混乱背景的干扰。然后,通过卷积注意力模块(Convolutional Block Attention Module,CBAM)提高网络特征提取能力。最后,基于公开的数据集Linemod进行实验,2D投影指标精度提升了0.3%,ADD指标精度提升了7%。针对遮挡数据集Occlusion Linemod,2D投影指标精度提升了1%,ADD指标精度提升了4.9%。(3)针对算力和功耗受限的嵌入式应用场景,研究并实现了基于Jetson Nano平台的6D姿态估计,在保持推理精度比较优势的同时,CA-YOLO-6D检测帧率达到10FPS,提高了算法的实时性。