论文部分内容阅读
视频内容语义结构分析和视频内容检索是目前国际国内多媒体研究领域最为活跃和快速发展的课题,而镜头边缘检测是视频处理应用重要和基础的环节。随着视频编辑技术的快速发展,涌现出许多新的视频编辑技术。使得以往的方法已不适应由这些新视频特技产生镜头的边缘检测。其中在新闻视频中的子窗口——“画中画”技术的出现,就使得原有方法准确率降低,严重影响对视频内容语义结构的进一步分析。 本文通过研究各种类型的镜头边界变换,观察到在不同分辨率中的检测是一个时域多分辨率现象。因此,本文应用了一个改进的时域多尺度分辨率算法,它对视频使用Canny小波进行时域多分辨率分析。这个框架通用于所有的视频类型。本文提出了将分块色彩直方图作为一个特征向量,然后通过对该特征向量进行小波变换所得的系数表示镜头视频帧序列的时域多尺度分辨率特性。传统的统计方法不能够有效的处理如此高维数的特征向量,但是支持向量机就能够解决这一问题。本文使用支持向量机分类器作为模式识别的工具配合使用滑动窗口技术来动态的将视频帧分为切换帧(CF)、渐变帧(GF)和正常帧(NF),再将已分类的视频帧聚类为不同的镜头类型。总之,在视频片段中分块色彩直方图能够提供足够的信息,而且支持向量机也能够动态的滤除视频流中的噪声,以使本系统得到更好的检测结果。 本系统采用了新闻视频片段作为测试集来检测分割性能。这个集合包括大约30个小时(15,253个镜头)的新闻视频片段,它们分别来自不同的频道各自拥有各异的视频编辑方法。通过测试表明在保持较高的召回率(recall)的同时还可达到更高的准确率(precision)。该框架基本上解决了新闻视频中“画中画”技术造成的错检问题,对渐变起始和终止位置的检测亦有较高的准确率。