论文部分内容阅读
随着"平安城市"建设的不断推进,公共安全逐渐成为人们关注的热点问题,视频监控技术也随之得到了越来越广泛的应用,传统的视频监控系统主要提供采集存储功能,这远远无法满足人们对其智能化的需求。要实现智能化的视频监控系统,以下几个关键问题亟需解决:(1)如何快速发现监控视频中的异常行为,及时给出警报,并最大限度地减少误报和漏报现象;(2)如何在多种不利因素下(如单样本,低分辨率)对可疑目标进行准确的识别分析;(3)在海量数据的情况下,如何确保视频分析系统的实时性及准确性。近年来,深度学习在机器视觉、语音识别和自然语言处理等多个领域都取得了优异的成绩,这也为智能视频分析技术的发展带来了新的契机。因此,本文基于深度学习的方法对上述相关问题展开研究,主要研究工作与创新如下:1.针对监控视频中的异常行为尤其是暴力打斗行为难以准确快速发现的问题,提出了一种基于三维卷积深度网络的暴力检测方法。该方法利用大量带标签的视频数据进行有监督的学习,通过将传统二维卷积核扩展为三维来提取视频中的运动信息,然后综合利用视频的空间信息及运动信息来构建深度神经网络模型,从而实现对监控视频中暴力打斗的检测。由于深层模型端到端学习的特性,所以不需要设计复杂的手工特征来描述运动信息,从而降低了任务的复杂度。实验结果表明,本文提出的方法在单一场景以及人群密集环境下都可以对暴力打斗行为进行准确识别。2.针对人脸图像在单训练样本下难以被准确识别的问题,提出了一种基于核主成分分析网络(Kerne1 Principle Component Analysis Networks,KPCANet)模型的二阶段投票人脸识别方法。该方法在不使用额外样本数据的情况下,利用非监督深层模型KPCANet对分块后的人脸图像进行训练并利用KPCA学习得到的滤波器进行特征提取,从而保证了提取的特征对光照及遮挡的鲁棒性,同时也消除了人脸局部形变对识别率的影响。本文通过投票的方法融合每一个分块的预测值来得到最后的识别结果,对于单次投票结果不唯一的情况,本文采取了二阶段的投票方法,通过扩大每一块的预测候选集,并对不同的区域赋予不同的权值来得出最后的结果,从而进一步提升了识别的准确率。实验结果表明,该方法在四个公开人脸数据集上都取得了优异的表现,算法准确率优于使用了额外数据集的通用方法,尤其是在非限制人脸数据集LFW-a上,本文提出的方法比SVDL和LGR方法准确率提升了约l5%。3.针对监控视频中人脸图像由于分辨率过低而无法准确识别的问题,提出了一种基于卷积神经网络模型的低分辨率人脸识别的解决方案。该方案提出了两种模型:多尺度输入的卷积神经网络(Convolutional Neural Networks,CNN)模型和基于空间金字塔池化(Spatial Pyramid Pooling,SPP)的CNN模型。(1)多尺度输入的CNN模型是对现有的"二步法"进行的改进,利用简单双三次插值方法对低分辨率图像进行上采样,再将上采样得到的图像与高分辨率图像混合作为模型训练样本,让CNN模型学习高低分辨率图像共同的特征空间,然后通过余弦距离来衡量特征相似度,最后给出识别结果。在CMU PIE和Extended Yale B数据集上的实验表明,模型的准确率要优于其他对比方法,相对于目前识别率最高的CMDA_BGE算法,准确率获得了 2.5%~9.9%的显著提升。(2)基于SPP的CNN模型,属于改进的"跨空间法",通过在CNN模型中加入空间金字塔池化层,使模型对于不同尺寸的输入图像都可以输出恒定维度的特征向量,最后通过比较样本库与测试图像的特征相似度就可以得到最后的识别结果。实验表明,相比多尺度输入的CNN模型,该方法在保持较高准确率的同时,省去了上采样的操作,简化了图像预处理的过程,同时也减少了传统"跨空间法"中需要学习的呋射函数的个数。4.针对监控系统中数据流传输带来的带宽占用问题以及对海量数据的快速准确分析需求,提出了一种基于"海云协同"的深度学习模型框架。海端系统利用深度学习的方法对本地数据进行训练得到局部模型,通过局部模型可以对数据进行快速检测,进而给出实时响应。海端系统通过上传局部模型和少量数据的方式协同云端训练,云端系统利用这些局部模型和数据构建更加复杂的深度模.型并进行调优,得到性能更好的全局模型。在MNIST、Cifar-10和LFW数据集上的实验表明,"海云协同"的方法有效地减少了数据传输的带宽消耗,同时也保证了海端的快速性和云端的精确性。上述方法已部分应用于中科院先导"海量网络数据流海云协同实时处理系统(XDA060112030)" 课题之中。