论文部分内容阅读
近年来,随着社会和经济的不断发展,智慧城市的建设成了世界各国发力的目标,而智慧安防作为智慧城市的重要组成部分,也是目前各国建设的重点。所以,视频异常检测作为智慧安防的核心组成部分,在国内外引起了学术界和工业界的极大关注。视频异常检测通过自动分析视频中的行为信息来判断是否有异常事件的发生,从而极大的解放人力,具有较高的研究意义和应用价值。在现实的监控场景中,目前存在的视频异常检测算法依然有很多问题没有解决,主要表现为:(1)在监控视频中,由于距离摄像头的远近不同,画面中的物体呈现着完全不同的尺度,同时对不同尺度的物体进行学习是比较困难的。(2)在监控视频中,大部分的区域都是和异常事件无关的背景,运动物体所占的区域只是小部分,如何应对这样的稀疏场景是目前算法所面临的难点。(3)视频帧中存在着大量的背景噪声,背景噪声对判断异常毫无帮助,但会对模型正确的学习运动物体的信息产生极大干扰,极大限制相关算法的性能。本课题研究的内容就是如何去解决上述的问题,本文提出了基于视频帧预测的视频异常检测算法,通过消除或者缓解上述的问题,有效提升了算法的性能。本文的主要研究内容和创新点主要包含两个部分:1.提出了一个基于残差未来帧预测网络的视频异常检测算法。通过分析监控视频背景信息保持不变的特点,在设计的网络的编码器和解码器中间加入了残差连接,残差连接可以让背景信息提前传入到解码器中,从而使预测器可以更关注于运动物体的预测。而且残差连接可以使梯度更加容易传入到编码器中,可以使编码器得到更加充分的训练。在预测器中,设计了基于空洞卷积的Gated Recurrent Unit(门控循环单元,GRU)块,通过不同感受野的空洞卷积对不同尺度的行为进行预测,可以对不同尺度的行为预测更加准确。此算法在CUHK Avenue、UCSD Pedestrian 和 ShanghaiTech 三个公开数据集上做了详尽的实验,实验结果充分证明了模型的设计的有效性。2.提出了一个基于多尺度帧预测的视频异常检测算法。通过设计多尺度的帧预测网络对视频帧中不同尺度的物体同时进行预测,同时多尺度预测网络的设计也同样可以使背景信息提前传入到解码器中,非常有利稀疏数据的学习。同时为了应对噪声对帧预测模型的干扰,引入了感知损失函数,通过在高语义信息的高维空间计算损失去有效缓解噪声的影响。此算法同样在CUHK Avenue、UCSD Pedestrian和ShanghaiTech三个公开数据集上做了详尽的实验,实验结果充分证明了本文所设计的算法的有效性和优异性。值得注意的是,此算法在CUHK Avenue达到了87.8%的帧级别曲线下面积(Area Under Curve,AUC),超过了当前最优的公开算法。