论文部分内容阅读
视频分析是计算机视觉领域中重要方向,从非结构性的视频数据中提取语义信息也是人工智能领域的突破。场景、事件是构成视频语义的重要组成部分,前者反映了视频中的相对固定的“语境”背景信息,后者则用来描述视频主体行为。在一些军事应用中,比如无人机侦查或航拍视频分析,自动化视频理解,特别是对场景实时识别具有很大意义。在其他一些大数据量,且要求实时性的应用中(如机器人作业、卫星图片处理),对场景的正确识别是重要的预处理步骤,对发掘场景中的深层信息有重要意义。在对视频信息自顶向下的处理过程,场景识别对后续的识别过程产生重要的语义约束作用。本文提出了基于感知流形空间的场景建模方法,仿造人类视觉生理过程对高维视觉数据降维并分类。文章完整的论述了这个过程的理论依据和实验过程。通过对实验结果的分析论证,验证了该分类方法的拓扑特性。基于流形空间的场景分类方法取得了较高精度,并在实时性等重要实用指标上有所突破。另外,本文实现了一个“航拍视频分析”技术原型。涉及视频处理的完整流程:视频解码转码,镜头分割,关键帧提取,场景分类。通过对真实航拍视频的内容分析,逐一检验各个环节的可行性和有效性,并对几类航拍视频分别给出测试数据,分析了该技术原型的核心性能指标。