论文部分内容阅读
行人检测是一种在目标检测任的基础上发展起来的,专门以行人为目标,旨在利用计算机和摄像头等设备获取行人在单帧图像及视频中准确位置的计算机视觉任务。同时,行人检测也是很多行人技术的前置技术,被应用于智能交通、安全监控、车辆辅助驾驶等多个领域,具有很高的商业价值和研究价值。然而,由于行人检测的场景复杂多样,行人密集场景下行人间的遮挡、多尺度问题、相机失焦等问题都增加了检测的难度,使用经典的目标检测算法如FasterR-CNN并不能很好地解决行人检测问题,尤其是密集场景下的行人检测问题。为了提升行人检测算法的性能,同时将图像行人检测扩展到视频行人检测中,本文对行人检测的相关算法进行了分析和研究,提出了密集场景下基于FasterR-CNN的单帧行人检测算法和视频行人检测算法。
本文首先分析了密集场景下的行人检测问题的主要难点,提出了一种基于FasterR-CNN的多尺度密集行人检测算法。算法通过在特征提取网络中引入特征金字塔网络来解决多尺度问题,有效地提升了小尺度行人的检出率。针对密集场景下的行人遮挡问题,该算法则通过提出针对密集场景下易被遮挡的行人目标设计的损失函数等手段方法来减少行人间的遮挡对于检测效果的影响。
进一步地,本文针对视频中存在的各类问题,在基于FasterR-CNN的多尺度密集行人检测算法的基础上,提出了一种融合多目标跟踪线索的视频行人检测算法。该算法通过引入多目标跟踪模块得到多目标跟踪线索,然后为了使用多目标跟踪线索来辅助行人检测,将多目标跟踪模块得到的跟踪框与行人检测网络的输出进行数据关联,以获得更加稳定的行人检测框。
经多种实验验证,本文提出的算法相较于FasterR-CNN,在行人检测的平均精度和召回率等方面均有大幅提升。同时,该算法在复杂视频场景中也能保证较高的稳定性,具有良好的应用价值,并且在MOT17DET数据集上的平均精度达到了0.88,与当前其他先进算法相比具有一定的竞争力。
本文首先分析了密集场景下的行人检测问题的主要难点,提出了一种基于FasterR-CNN的多尺度密集行人检测算法。算法通过在特征提取网络中引入特征金字塔网络来解决多尺度问题,有效地提升了小尺度行人的检出率。针对密集场景下的行人遮挡问题,该算法则通过提出针对密集场景下易被遮挡的行人目标设计的损失函数等手段方法来减少行人间的遮挡对于检测效果的影响。
进一步地,本文针对视频中存在的各类问题,在基于FasterR-CNN的多尺度密集行人检测算法的基础上,提出了一种融合多目标跟踪线索的视频行人检测算法。该算法通过引入多目标跟踪模块得到多目标跟踪线索,然后为了使用多目标跟踪线索来辅助行人检测,将多目标跟踪模块得到的跟踪框与行人检测网络的输出进行数据关联,以获得更加稳定的行人检测框。
经多种实验验证,本文提出的算法相较于FasterR-CNN,在行人检测的平均精度和召回率等方面均有大幅提升。同时,该算法在复杂视频场景中也能保证较高的稳定性,具有良好的应用价值,并且在MOT17DET数据集上的平均精度达到了0.88,与当前其他先进算法相比具有一定的竞争力。