论文部分内容阅读
如何让机器理解视频内容,是利用海量视频数据的核心问题。视频内容分析是解决该问题的关键技术之一。随着应用范围的拓展,视频分析领域出现了如何提取有效特征以检索和搜索格式不同的视频内容,以及如何准确检测形式多变的视频镜头边界这两个重要问题。这些问题是进行视频相关应用所涉及的基本问题,开展相关研究具有重要的理论和现实意义。
本文采用视频内容时空感知分析技术对这些问题进行了研究。建立了视频内容分析的时空感知模型,基于该模型,依据视觉信息的时空关联性和感知流形性,分析和解决提取有效视频特征以及视频镜头边界检测这两个问题。主要的创新点包括:
1.建立视频内容分析的时空感知模型
本文建立视频分析的时空感知模型,从视觉感知理论出发,提出在融合空域与时域信息的联合空间中分析视频内容感知性质的方法。首先引入视频分析的时空联合空间,阐明了视频内容在该空间中的表达方式,并基于该空间分析了视觉感知中两个重要的性质:视觉刺激敏感性的时空不可分性和视觉感知的流形性,作为下文分析问题的依据。从而建立基于时空感知进行视频内容分析的整体模型。
2.基于刺激敏感时空不可分性的视频特征提取
本文在时空感知模型中,依据视觉刺激敏感性的时空不可分性,提出不易受视频格式变化影响的有效视频特征提取方法,以利于在互联网应用环境下跨格式检索和搜索视频内容。在模型中依据视觉刺激敏感性的时空不可分性,通过同时在时间和空间维度对视觉内容进行频率域分析得到时空联合的有效视频特征。这样的特征不易受到格式变化的影响。在检索格式不同的视频内容方面,取得了良好的效果,对于克服格式差异检索和搜索视频内容有着重要的意义。
3.基于局部子空间的镜头边界检测去噪
本文在时空感知模型之中,通过构造局部子空间来分析视频内容的关联性,以减少光线突变对镜头边界检测带来的影响。该方法通过对短时间内的视频内容进行主成分分析,在局部内容上构造局部特征空间以近似视觉内容的感知流形的局部结构。克服在整体特征空间中难以准确度量视频内容相似性的问题,达到了在进行镜头边界检测时去除光线突变噪声的目的。从而在镜头边界检测时能对视频进行有效的预处理,消除光线突变噪声造成的影响。
4.基于场景流形分析的镜头边界检测
本文在时空感知模型中,提出基于场景流形进行视频镜头边界检测的方法,从而提高了镜头边界检测的准确性。在模型中考察视频内容的时空场景流形结构,从流形的局部欧氏性出发,通过分析时空邻接结构单元之间的特征差异,得到场景流形在局部区域的时空平滑度信息。依据场景流形在时间维的平滑性,得到视频内容在时间上的关联性,进而依据内容的时间关联性检测镜头边界,从而达到从感知角度分析镜头边界检测问题的目的。这对于检测形式各异的视频镜头边界,分析视频结构有着重要的意义。