论文部分内容阅读
视频内容检索是目前国内外多媒体研究领域最为活跃和快速发展的课题,而镜头边缘检测是视频处理应用重要和基础的环节。随着视频编辑技术的快速发展,许多新的视频编辑技术不断涌现出来。使得以往的检测方法已不能适应由这些新视频特技产生镜头的边缘检测。例如,目前在新闻视频中的子窗口——“画中画”技术的频繁出现,就使原有方法的准确率大大降低,严重影响了对视频内容语义结构的进一步分析。本文提出的视频分割框架通过研究在不同分辨率中各种镜头类型的变换,观察到镜头边界检测是一个时域多分辨率现象。因此,本文应用了一个改进的时域多尺度分辨率算法,它对视频流使用Canny小波并对其进行时域多分辨率分割。这个框架适用于所有镜头类型的视频变换。具体地讲,本文提出了将分块色彩直方图作为一个特征向量,通过对该特征向量进行小波变换,所得的系数表示镜头视频帧序列的时域多尺度分辨率特性。本文使用支持向量机分类器作为模式识别的工具配合使用滑动窗口技术来动态的将视频帧分为切换帧(CF)、渐变帧(GF)和正常帧(NF),最后将已分类的视频帧聚类为不同的镜头类型。本系统采用了来自于国内外不同频道的新闻视频片段作为训练集和测试集来检测分割性能。这个集合包括大约30个小时(15 253个镜头)的新闻视频片段,拥有各异的视频编辑方法。通过测试表明在保持较高的召回率(recall)的同时还可达到较高的准确率(precision)。该框架基本上解决了新闻视频中“画中画”技术造成的错检问题,对渐变起始和终止位置的检测亦有较高的准确率。