论文部分内容阅读
随着视频监控系统的广泛应用,视觉信息成为现代安防领域安全技术的重点研究要素。计算机视觉相关技术可以被应用到智能监控领域,使得计算机可以对视频进行处理。人们可以通过计算机理解视频监控,直接获取区域人数,或者得到人群分布。目前,视频监控人数统计主要依赖人眼识别,人工成本高,识别效率低,视频信息不能被及时理解,有效处理。使用深度学习算法自动学习特征进行人数统计,可以帮助人们解决重复性的计数工作,这不仅提升了商家的运营工作效率,也降低了经营者或组织的劳力开销。当前的人数统计方法往往依赖于人体检测,真实场景中的人体检测面对的环境多样,往往存在光照变化,目标遮挡,目标尺寸差异大等影响因素,并且视频是由成千上万个图片帧组成的,对于算法的检测速度也有很高的要求。本文主要基于深度学习目标检测方法进行人体检测并统计最终人数。通过分析现有特征提取网络设计上的优势和劣势,本文提出了可以用于多尺度检测的空洞残差模块,并在此基础上构建了尺度特异性特征提取网络解决上述问题。本文通过分析视频检测的难点与视频自身特点,提出了一种基于视频的人数统计方法。通过对现有人数统计方法进行深入调研,从准确性和实时性两方面进行分析,设计基于视频的人数统计算法,包括特征提取、损失函数、后处理阶段等。针对目标检测中由于尺度差异大造成的误检漏检问题,本文提出了三个基于空洞残差块的并行子网分支进行特征提取,提高了网络对多尺度目标的检测准确率。针对人数统计中存在的遮挡问题,本文设计了更具有分辨性的损失函数,解决了人群的密集遮挡造成的漏检问题,提高了密集人群检测的召回率。针对视频目标检测自身的特点,本文在后处理过程中采用基于视频的非极大值抑制算法,使用相邻帧高得分的目标缓解同一序列中的目标可能存在的因低置信度导致漏检的问题。本文主要在PASCAL VOC、COCO以及Crowd Human数据集上进行实验,并针对视频的后处理改进在ICG数据集上进行实验,最终在PASCAL VOC含有人的数据集上平均精度值达到88.4%,并且具有较快的处理速度。与现有方法和基础模型进行对比,通过对实验结果的分析,证实了本文所提出的用于视频人数统计的检测方法的有效性。