论文部分内容阅读
视频异常事件检测是计算机视觉中一项重要但极具挑战性的任务,其目标是在较低的资源成本下,准确及时地定位视频中的异常事件。随着近年来人工智能技术的发展,异常事件检测逐步凸显其实际应用的潜力。例如,该技术可以应用于现实场景,如智能监控系统,及时发现监控中危险行为;也可以应用于网络平台,如视频内容审查,过滤暴力色情等不良视频。目前视频异常事件检测领域中,半监督异常事件检测和弱监督异常事件检测是两个主要的研究课题。早期的研究主要集中在半监督异常事件检测上,即训练集中只有正常的视频。常见方法是构造一个正常模式对训练集中所有样本进行编码,与正常模式不一致的测试样本被视为异常。近几年,弱监督视频异常事件检测开始成为新的研究热点,与半监督异常事件检测不同,在弱监督模式下,训练集中包含了正常视频和异常视频,但训练集中异常视频只有视频级标签可用。多示例学习机制是弱监督异常事件检测中常用的解决思路。半监督异常事件检测和弱监督异常事件检测从两个不同的角度出发,在研究问题和解决思路上都有明显不同。但两者关系又非常密切,前者是一个单分类问题,强调检测那些偏离已有正常模式的样本,在一些特定领域该任务有很好的应用价值。但这种不强调正常和异常明确界限的问题也导致在实际应用中可能会产生较高的误报和漏报率。而后者,即弱监督异常事件检测,则弥补了以上不足,它可以看作是一个多分类问题,明确区分正常类别和异常类别。同时,弱监督模式在尽可能减少监督信息的情况下,有利于实现大规模数据的标注和构建,因此其实际应用前景更高。本文研究涵盖了半监督和弱监督两类模式,针对从单分类问题到多分类问题转变,从小规模数据到大规模数据扩展,开展了一系列研究。针对半监督视频异常事件检测中缺乏端到端的深度分类模型的问题,本文提出了一种端到端的深度单分类神经网络,它可以同时学习紧凑的正常模式的特征表示并同时训练一个深度的单分类器。仅给定正常样本,使用卷积编码器生成它们的低维高级特征并同时训练一个单分类器以使这些特征尽可能紧凑。同时,为了正确的映射关系和特征表示的多样性,再利用解码器从这些低维特征表示中重建原始样本。与之前两阶段(提取特征和训练分类器)的深度单分类方法不同,该方法是一种使用由神经网络自动提取的任务相关特征的单阶段模型。同时该方法在模型参数和检测速度上也明显优于已有的基于深度自动编码器的方法,并且也证明了使用自动编码器瓶颈层高级特征来检测异常事件的可行性。针对半监督视频异常事件检测中基于稀疏编码的方法在稀疏系数的优化非常耗时的问题,本文在上一个研究工作基础上,提出了一个基于高级特征表示的快速稀疏编码网络。具体而言,首先提出了一种编码-解码结构的双流神经网络来提取瓶颈层中的时空融合特征。之后又提出了快速稀疏编码网络来构建正常模式的字典。在训练阶段优化稀疏系数预测器求解稀疏系数,在测试阶段稀疏系数预测器直接生成近似稀疏系数。与传统的基于稀疏编码的方法相比,该方法在测试阶段的速度要快数百倍甚至数千倍。针对异常暴力事件检测中数据匮乏、任务简单的问题,本文构建了一个大规模、多场景、多模态数据集用于弱监督异常暴力事件检测。然后提出了两个互补的任务,即粗粒度暴力事件检测和细粒度暴力事件检测,以推动暴力事件检测任务从简单暴力视频分类到精细帧级暴力事件定位。以上两个任务的主要区别在于前者只关注每帧是否包含暴力,而后者也关注暴力事件的类别和事件发展的连续性。最后提出了一个包含三个并行分支的神经网络来捕获视频片段之间的不同关系并整合特征,其中全局相似分支使用相似性先验捕获远程依赖关系,局部距离分支使用邻近性先验捕获局部位置关系,动态分数分支动态捕获预测分数地相似度。在粗粒度和细粒度任务中,所提出的方法在几个公共数据集上都优于其他最先进的方法。此外,实验结果也显示出了音频-视频多模态输入和关系建模会显著提升模型的检测性能。针对弱监督视频异常事件检测中,尤其在线检测任务,缺乏时序线索和特征辨识性探究的问题,本文提出了一种基于因果时序关系学习和特征辨识性增强的方法。该方法一方面捕获特征之间的局部范围时序依赖性以增强特征,另一方面学习特征的辨识性来确保正常特征的类内紧凑性和正常类与异常类的类间分散性。在三个公共基准上进行的大量实验证明了因果时序关系和特征辨识性对于异常事件检测的重要性以及提出的方法的优越性。