论文部分内容阅读
监控视频中包含了各种目标,具有海量的复杂信息。其中难点在于如何让机器识别出这些目标并且理解发生的事件,从而帮助我们进行高效的城市管理。计算机视觉在监控视频语义分析中具有广泛的应用价值,包括智能安防、智能交通、智能园区和智能机器人等具体场景。同时随着深度学习的突破性进展,近年来的研究大多都以深度学习为基础进行展开,而本工作也基于深度学习首先对语义分割进行了研究,为多种下游任务提供基础的识别分割能力,接着以人为中心对行人重识别、社会关系识别和人物交互检测三个具体的任务展开了研究,主要创新点包括:(1)针对语义分割边界模糊问题提出了区域感知神经网络(Region-Aware Network,RANet)。该网络在经典语义分割算法框架上提出了区域感知分支,在语义分割训练过程中引入了区域特征学习。其中关键在于所提算法设计了一种区域感知损失函数和一种基于记忆库的学习模式,可以在增加较少计算资源的情况下有效地利用整个数据集中的图像,从而在有监督学习下同时优化区域特征和语义分割特征的学习。(2)针对语义分割中的知识蒸馏问题提出了统一知识蒸馏网络(Unified Knowledge Distillation Network,UKDN)。该网络在基于响应的知识上提出了基于特征和关系的知识蒸馏,在浅层特征和深层特征中分别提取纹理知识和语义知识,在网络前向中提取特征变化信息。其中关键在于所提算法针对语义分割任务提取了两种新的知识进行蒸馏操作,对于浅层和深层特征中的纹理、语义和关系知识的提取可以更有效的解决语义分割任务。(3)针对行人重识别经典算法框架中的问题提出了特征空间重缩放(Spatial Re-scaling,SpaRs)网络。该网络在基线网络的基础上添加了空间重缩放层,并结合深度监督技术完善浅层特征和深层特征学习。其中关键在于空间重缩放层有效的解决了全局平均池化操作导致的特征激活区域过于集中的问题,使得网络模型学习到更加全面的特征,同时在反向传播过程中帮助网络模型稳定了梯度。(4)针对行人重识别结果排序中的问题提出了上下文感知图卷积网络(Context-Aware Graph Convolution Network,CAGCN)。该网络以基线网络为特征提取器,加入了图卷积网络对查询图像和图库图像的特征进行优化学习。在图卷积阶段通过困难图库样本采样方法充分挖掘了困难样本,并将查询图像和图库图像特征作为图节点进行构图,利用图卷积网络学习了整个数据集中的上下文信息。其中关键在于该算法以有监督学习的方式保证了困难样本挖掘的可靠性,同时在网络训练阶段完成重排优化操作极大的缩短了后处理时间,提高了整体算法的效率。(5)针对真实世界中的社会关系识别问题研究构建了一个基于监控场景的社会关系视频数据集,提出了时空关系图卷积网络(Spatial-Temporal Relation Graph Convolutional Network,STRGCN)。其中数据集是该领域首个包含现实生活场景的数据集,同时算法框架填补了社会关系识别在真实世界中研究的空白。该框架以多模态特征为输入,通过一种行人行为和特性分析方法进行建模,充分挖掘了多模态特征在时间维度中的信息。接着通过两种图卷积网络进行社会关系特征学习,从而完成社会关系识别。其中关键在于算法基于构建的数据集对多人关系进行了多模态特征学习和建模,能够一次性输出整个场景中的每对人之间的关系。(6)针对人物交互检测经典算法框架中的问题提出了交互性提议图神经网络(Interactiveness Proposal Graph Network,IPGN)。该网络包含了经典算法中的三分支网络和一个图分支网络。其中提出的图分支网络包括一个全连通图和一个稀疏连通图,分别用于学习第一阶段的交互性知识和第二阶段的交互动作知识,而由全连通图建模的交互性特征将同时用于两个阶段的特征学习。其中关键在于该算法通过两阶段的设计流程为全连通图提供了一种更简单的学习目标,可以构建一个更明确可靠的图来建模交互性特征,同时交互性特征又将进一步用于稀疏连通图中的交互动作特征建模,有利于动作分类。