论文部分内容阅读
近年来,随着全球人口数量的上涨和人类社会活动的增加,各地的公共场所经常会出现人群大量聚集的情况,如交通枢纽、文体活动场所等,这对公共安全带来了巨大的隐患。为避免人群踩踏等伤亡事件的发生,这些公共场所通常都安装有监控设备,但是人工监控又存在效率低、成本高等问题。因此,通过计算机视觉和人工智能等技术实现自动、高效、精确的密集人群场景计数就成为了研究热点。同时,人群计数在公共空间设计、交通设施规划、智慧城市等领域也都有重要的意义。人群计数是计算机视觉领域问题的一个极具挑战性的问题,其主要目标是针对包含密集人群的输入图像,输出其对应的密度图以及总人数,从而可以清晰地反应当前场景下的人群密集程度及分布情况。该问题的难点主要包括:密集人群相互遮挡,辨识难度高;远距离密集人群中单个人所占像素少,无法识别;摄像机角度、距离等信息不一致导致不同图像间和同一图像内部目标尺度差异较大,单一的模型难以适应。针对上述问题,本文提出了一种基于卷积神经网络的人群计数算法exMCNN,实现从密集人群图像到相应的密度图像和估计人数的映射。本文的主要工作如下:1、为解决图像拍摄视角、距离引起的透视失真和尺度不一致,以及人群密集程度高引起的遮挡等问题,算法使用了三列卷积核大小各不相同的卷积神经网络,作为三个基础回归器,分别由输入图像计算得出各自的估计密度图。这三个基础回归器的结构一致,分别对应于包含不同尺度待检测目标的图像。2、为处理不同图像场景和同一图像内部的尺度不一致问题,算法设计了一个基于VGG架构的特征提取器,用于提取输入图像各个位置的图像特征。算法的最后阶段将回归器的输出结果和特征提取器得到的特征图合并,通过各个位置的图像特征来从三个基础回归器的预测结果中组合得到最终的密度图像。算法输出的密度图像能反映图像中人群的整体分布情况,并且将密度图的各像素累加即可得到总的人数。3、本文对exMCNN算法在各个常用的人群计数数据集,包括ShanghaiTech、UCFCC50和Mall上进行了一系列实验。实验通过将该算法与以往的人群计数算法进行比较,验证了算法在密集人群场景计数的精度上取得了目前最优的效果。另外,本文还通过算法训练过程和训练完成之后的特征图可视化,说明了算法的设计理念和最终结果的有效性。同时,本文探讨了人群计数问题在不同数据集之间迁移的困难,并分析和实验了解决方法。最后,本文设计了一个基于exMCNN算法实现的实时人群计数程序,并展示了在学校教学楼出入口实际应用场景的运行效果。