论文部分内容阅读
随着社会的快速发展及城市化进程的加速推进,近年来公用和民用视频监控数量保持海量增长。为更高效快速地利用视频数据,许多国家开始系统地研究智能视频监控技术。人群计数作为智能视频监控系统的重要任务之一,在公共安全及商业领域都有十分重要的理论和应用价值,近年来已经成为机器视觉和人工智能领域的研究热点。随着学术界和工业界对该问题的研究,人群计数算法的计数准确度已经有了明显的提高,但在实际应用中仍面临较多挑战:在实际场景中,视频监控采集到的视频图像中往往存在复杂背景,其中部分特殊背景与人群或人头形态相似,易被误判为人群;人群中个体自由度较高,导致人群分布杂乱且密度差异大,增加了计数难度;受拍摄距离及角度的影响,视频监控中人头尺寸也存在较大差异,影响了人头区域定位的准确性。以上三个问题都严重影响了人群计数的准确度。本文依次针对以上三个挑战对人群计数算法进行了研究,主要内容及创新点归纳如下:1.针对人群图像复杂背景下出现的个体差异问题,设计了对图像块表观特征进行分类的辅助训练任务,形成了辅助训练机制的人群计数方法,有效缓解了人群目标误判的问题。该计数方法的创新点可归纳为:(1)计数整体流程避免了前景分割、人头提取等复杂任务,仅需对全局图像进行分块。(2)该计数方法基于卷积神经网络设计了端到端的训练结构,避免了传统机器学习算法中人工特征提取和回归模型设计等耗时耗力的任务。(3)根据人头朝向等表观特征所设计的辅助训练任务与人群计数任务实现参数硬共享,在网络训练过程中提取到多语义信息并有效辅助网络在空间中关注人头位置,从而提高了人群计数的准确度。2.针对图像中的复杂背景将注意力模块应用于人群计数,形成了人头注意力机制的人群计数方法,有效过滤了图像中的非人头信息。该计数方法的创新点可归纳为:(1)在传统的注意力模块基础上进行了改进并首次应用于人群计数领域。注意力模块与卷积神经网络的结合可指导网络关注人头位置从而有效过滤图像中的非人头信息,因此该网络对复杂背景具有鲁棒性。(2)为提高对稀疏人群的计数准确度,设计了相对误差损失函数,提升了稀疏人群样本在网络训练过程中的重要性,从而提高了对稀疏人群数据生成密度图的清晰度和准确度。3.针对人群杂乱分布这一挑战,延续了辅助训练思想并设计了结合空洞卷积和多个注意力机制的多分辨率注意力模块,有效提升了人群计数的准确度。该人群计数方法的创新点可归纳为:(1)将密度等级分类和人群计数任务训练所得的多语义特征进行级联,对人群杂乱分布而导致密度不均的情况具有鲁棒性。(2)将注意力模块进行改进,基于连续卷积层的特征分别生成注意力图并将其加和来强化人头位置的特征。(3)结合改进的注意力模块和空洞卷积操作设计了多分辨率注意力模块。其中的空洞卷积操作以较少的参数学习到具有更大感受野的特征,一方面为注意力图的生成提供更丰富的信息从而更准确地定位人头区域,另一方面可获取全局信息,提升网络对杂乱人群的鲁棒性。4.针对人头尺寸差异问题,利用AlexNet的特征提取能力融合了多个卷积层的特征进行人群计数,增强了网络处理多尺度目标的能力。另外,设计了可提取更多不同感受野特征的多尺度自适应网络,该网络可根据不同输入自适应加强具有对应感受野大小的特征通道,降低了弱相关特征通道的竞争性。尺度自适应人群计数网络的创新点可归纳为.:(1)设计了由传统卷积分支和空洞卷积分支组成的尺度扩大单元,单个尺度扩大单元可提取具有两种不同感受野的特征。(2)采用密集连接模式将多个尺度扩大单元进行连接,进一步增大了感受野范围,同时使感受野在一定范围内分布更密集,因此可有效处理图像或视频中人头尺寸差异问题。(3)设计了通道注意力单元来针对输入图像中不同的人头尺寸有选择性地增强具有合适感受野的特征通道,有效缓解了不同特征通道间的竞争所导致的负面影响。5.为探究不同模态数据在网络训练中对网络贡献的差异,本文设计了模态加权神经网络,可在网络训练过程中自适应提高重要模态数据的权重。另外,该网络是尺度自适应网络中通道注意力单元的设计基础。该网络的创新点可归纳为:(1)在自动编码器的基础上设计了结构化正则项,指导网络在训练过程中为不同模态的数据分配权重,从而学习不同模态数据对网络贡献的差异,因此更有效地利用了多模态数据。(2)该网络适用于具有多种模态输入的分类任务,可根据不同任务设置网络超参数并基于多模态数据进行训练,具有普适性。