论文部分内容阅读
目标检测是多媒体和计算机视觉领域的经典问题。近年来,深度学习的快速发展极大地推动了目标检测算法领域的研究。本文实现了基于深度卷积神经网络与回归思想融合的目标检测算法,基于该算法在低功耗嵌入式平台NVIDIA Jetson TX1上开发了实时的目标检测系统。R-CNN、Fast R-CNN和Faster R-CNN等一系列目标检测模型通常将目标检测当做是在候选框中提取特征后的分类任务。这种模型的优点是精准度较高,但无法达到实时性的要求。针对这一问题,本文采用了回归的思想,通过构造一个回归和分类融合统一的多任务损失函数,直接在深度卷积神经网络的特征层上进行候选框的回归与分类,极大地提升了目标检测的速度,在GPU加速的服务器上达到了 120 FPS。为了克服Jetson TX1上内存和显存资源有限的难题,算法在卷积神经网络的深度和模型的规模上作出了平衡。本文算法由8层的卷积层和1层的检测层组成,卷积层采用3×3的卷积核,并且加入了 Batch Normalization层和MaxPooling层,由于全部采用卷积层,有效地降低了模型的参数规模。本文算法的训练分为预训练和微调两个部分,首先在ILSVRC2012训练集上完成对目标检测算法框架中深度卷积神经网络的预训练,达到了Top-1 58.3%和 Top-5 81.3%的分类准确率;然后在 Pascal VOC2007 和VOC2012数据集上对整个算法进行微调,在VOC2007和2012的验证集上分别达到了 54.2mAP 和 47.8mAP。本文在通用GPU加速的服务器上完成对算法的训练后,将算法移植到移动式嵌入平台NVIDIA Jetson TX1上,并开发了包括摄像头输入、图像帧预处理、目标检测以及视频输出预处理的整个实时的目标检测系统,系统的检测速度达到了 26FPS,且功耗仅为11W。