论文部分内容阅读
作为计算机视觉与模式识别任务中一个热点的研究课题,人群计数和密度估计无论现在还是未来都有着广泛的应用,如智能监控、交通管理以及公共安全等。近年来,研究学者已有大量的关于人群计数领域的创新和研究工作,但是仍面临严重遮挡、密度不均匀、极度拥挤等诸多挑战。因此,为了改善当前的人群计数准确性较低的状况,提出了一种鲁棒性强的基于深度学习的人群计数方法。针对不同景深和遮挡干扰影响人群计数准确性的问题,首先根据LeNet-5、AlexNet和VGG-16三种经典网络模型在提取图像中不同景深目标的特性,调整三种模型的卷积核尺寸和网络结构,分别对不同大小的感受域进行局部感知,捕获图像中不同尺度的人头部特征以提高计数精度。然后,构造出一种基于多模型融合的深度卷积神经网络架构,并且网络的后端配置滤波器大小为1×1的卷积层代替传统的全连接层,对提取的特征图做线性加权,兼顾了人群计数算法的精度和效率。最后,通过提出的网络模型输出估计密度图和人数的预测值。大量的实验表明,在公开人群计数图像集上本文提出的人群计数方法均实现了比现有传统方法更出色的计数结果。同时,设计迁移学习实验以验证构造的人群计数网络架构具有良好的泛化能力。近期,新颖的人群计数方法层出不穷,但始终不能完美地处理尺度变化问题。为进一步改善人群计数的性能,受启发于感受域块(RFB)对目标检测任务的显著提升,我们将VGGNet模型、感受域块模型和膨胀卷积模型融合进行人群计数算法研究,可以更好地模拟人类真实视觉系统中的感受域。然后对于场景中人群计数提出一种基于膨胀卷积的多尺度网络,通过学习图像中多尺度上下文信息,实现了精确且快速的人群计数。提出的网络前端是VGG-16的前十层,然后将感受域块模型嵌入网络提取多尺度特征,最后选择一系列膨胀卷积层作为网络后端。先前大多数方法都通过随机分割图像成小块以扩增训练样本,但分块样本区域重复且全局信息部分丢失。网络强化训练阶段中,以完整的图像输入模型架构进行训练,学习了图像中完整的语义信息和空间特征。在常用的基准人群计数图像集上进行了大量实验,结果显示了提出的人群计数方法在性能上优于最先进的方法,并且为验证提出模型的泛化能力进行了对比实验和消融研究。