论文部分内容阅读
目标检测的任务是识别图像中的目标类别并进行定位。基于深度学习的图像目标检测算法的研究已取得重大进展,相继提出了Faster R-CNN(Region-based Convolution Neural Networks)、YOLO(You Only Look Once)和SSD(Single Shot Multi Box Detector)等经典算法。近年视频数据呈爆发式增长,越来越多的研究人员的目光从图像目标检测领域转移到了视频目标检测领域。视频序列中存在上下文的语义信息,邻近图像间具有极大的相似性,冗余信息较多,视频图像与静态图像相比,容易出现运动模糊、遮挡和姿态怪异等现象。目前的研究方向有两个,分别为通过帧间的冗余性加快视频检测的速度,通过时序关联性提高视频目标检测的精度。本文使用图像目标检测的YOLOv5网络结构作为视频目标检测的基础网络,Image Net VID数据集的子集作为本文的数据集。利用视频数据相邻帧间的极大相似性和时序相关性,通过选取关键帧和框级传播来提高检测速度,利用视频数据的全局语义信息,通过记忆模块来提升检测的精度。本文主要工作描述如下:(1)提出基于YOLOv5的视频目标检测算法。首先固定间隔选取稀疏的关键帧,将关键帧输入卷积神经网络,提取特征图,获得关键帧的检测结果,然后采用Seq-NMS的后处理方式抑制关键帧上产生的冗余边界框,最后通过框级传播的方式,获取非关键帧的检测结果。在Image Net VID数据集的子集上进行广泛的实验,当前视频检测器的m AP值达到了81.7%,离线运行速度为84.2FPS。(2)提出基于记忆模块的视频目标检测算法。首先,利用改进的两帧差分法描述指定图像间的运动信息,使用类交并比的方式,将获取的两张二值掩码图中像素值为1的像素点交集的数量除并集的总数得到运动信息比F,以此自适应的选取关键帧。然后介绍记忆模块,用全局语义信息去增强弱检测的结果。最后,采用CIo U(Complete Intersection over Union)计算边界框的回归损失,可以获得更加精准的位置信息。在Image Net VID数据集的子集上进行广泛的实验,当前视频检测器的m AP值为82.4%,离线的处理速度为98.4FPS,即检测每张图像的检测时间为10.2ms。总之,生成的检测器比经典的DFF(Deep Feature Flow)和FGFA(FlowGuided Feature Aggregation)检测器的参数量更少,检测速度更快,边界框的定位更精准。