论文部分内容阅读
随着城市化进程的加快,公共安全问题逐渐凸显出来。视频监控作为最主要的安全控制手段,担任着保护人民生命财产安全的重要责任。并随着国家大力开展“平安城市”、“智慧城市”等城市建设工程,安防领域迫切需要在人工监控的基础之上借助深度学习目标检测技术实现智能监控。基于深度学习理论的目标检测技术在近年来取得巨大的成功,但是对于人群这种密集程度高的小型目标检测效果有待提升。本文针对人群目标检测相关难点提出一些改进方案,本文的主要研究工作包括:(1)根据人群目标数量多、目标小和密集程度高等难点,采取头部目标检测方法,通过检测人群头部目标定位人群中的个体。选取SCUT-HRAD数据集作为本文的实验数据集,选取检测速度较快的单阶段检测算法YOLOv3作为本文主要算法,在SCUT-HRAD数据集上YOLOv3算法对人群目标的检测精确率为85.26%,在3块GTX1080Ti环境下检测速度FPS为94.3,神经网络模型训练时长为6小时34分钟。(2)针对先验框比例和真实头部目标比例不符的问题,提出在多尺度下修改先验框Anchor比例的方法,达到加速网络收敛的效果。在3块GTX1080TiGPU上训练神经网络模型,训练时长从6小时34分钟缩短到6小时21分钟,训练时长缩短3.3%。(3)针对密集人群检测精确率低的问题,提出基于注意力机制的人群目标检测算法,成功将人群密度估计算法CSRNet生成的人群密度图以注意力机制的形式融入特征图中,达到提高人群目标检测精确率的效果。实验结果表明:在SCUT-HEAD数据集上检测精确率mAP从85.26%提高到86.35%,同时由于增添CSRNet网络结构的原因,在3块GTX1080TiGPU情况下算法的检测速度由94.3FPS降为92.1FPS。降低后的速度仍然满足实时检测的要求,因此本文认为牺牲小部分速度换取人群目标检测精确率的提升是有价值的。在满足实时检测的前提下,在安防监控领域可以根据实际情况选取较低配置的GPU完成人群目标检测任务。