论文部分内容阅读
移动机器人自主作业需要感知周围环境以完成预期的任务。物体检测是环境感知中的热点问题,任务是给出场景中目标物体的位置和类别,近年来取得了丰富的研究成果,但还无法满足实际应用对精度和效率的要求。为此本文围绕室内外环境中的物体检测开展了室内基于RGB-D图像的物体检测、室外基于RGB图像的物体检测和物体检测域自适应三方面研究。主要研究成果如下:1.提出了分层级融合多模态特征并具备端到端特性的一阶段快速物体检测网络。该网络先分层级地提取并融合RGB图像和深度图中互为补充的外观特征和几何特征,再使用多尺度的特征层完成预测。在预测过程中,一系列尺寸不一的三维锚框被预先贴附在预测特征层上,三维锚框的初始位姿由深度图决定,通过网络调整三维锚框的位姿并对其分类,对这些三维锚框做非极大值抑制后得到最终的检测结果。在训练过程中,用二维真值框辅助的正样本匹配方法来优化网络的模型。SUN RGB-D数据集上的实验结果表明,本文方法的精度比现有方法高出10.2%,效率比现有方法快109倍。2.设计并实现了一种用兴趣区域对齐提升精度和用网络压缩与加速提升效率的二阶段实时物体检测方法。本文先用候选框生成网络得到候选框,再用兴趣区域对齐替代兴趣区域池化提取各候选框的特征,最后将候选框特征输入给全连接层进行分类和位置回归。用对齐操作取代池化操作让车辆、行人的检测精度提升12.2%、6.8%。为提升实时性,本文使用通道裁剪方法对网络进行压缩,并用1 × 1的卷积核将特征提取器的输出特征层的通道数量减半,将全连接层的通道数量减少至原来的1/4。检测车辆和行人的帧率由14fps提升至27.7fps,而精度与压缩和加速前相比仅降低了2.1%、1.5%。3.提出了基于二阶段物体检测器的特征层面和像素层面相结合的域自适应方法。在特征层面上,在特征提取器后添加基于对抗损失函数的域分类器;在像素层面上,将特征提取器中多个特征层连接至生成器,生成器将融合后的特征以图片的形式输出给域分类器。通过对抗训练的方式,两者在单独使用时都能提升检测器的性能,前者的召回率较高而后者的准确率较高。同时使用两者能发挥各自的优势,起到互补的作用。域自适应后的检测器在Virtual KITTI数据集的精度由51.2%提升至69.5%,在Foggy Cityscapes数据集的精度由20.2%提升至30.3%,精度增幅比现有方法高出1.3%。