论文部分内容阅读
视频分割,是一种根据灰度、颜色、边缘以及运动等一切可以利用的信息把视频序列分割成有意义的运动主体的技术。在这种意义下的视频分割,是传统的底层视觉任务--图像分割的自然推广。从方法上讲,视频分割是计算机视觉领域中一个很重要的基本问题。在应用层面,视频分割的目标就是把视频分割为一些具有一定语义的三维区域,这提供了一种简洁高效的视频表达,在很大程度上有助于视频的分析与理解。它是几乎所有与视频相关的高级视觉任务的基础,比如基于内容的视频编码、物体跟踪、动作识别、运动分析、三维场景分析、基于内容的视频检索等。
本文调研了视频分割的国内外的研究现状,尤其详细介绍了时空同步的视频分割方法和空域优先的视频分割方法。对于前者,针对现有的基于图的方法中难以兼顾全局信息的缺点,本文提出了时空体图割法。相比于前者,后者的优势在于能够很好地利用现有的比较成熟的图像分割技术来极大地提高效率。但是,它的弱点在于分割的不稳定性造成的区域匹配困难。本文提出了一种新的多层谱聚类视频分割算法,通过非参数的方法来解决这一难题,从而完成视频分割。最后,本文把视频分割方法应用到基于纹理合成的视频编解码框架中,改善了纹理样例选择的合理性。
具体的,本文的主要研究成果如下:
(1)对基于图的时空同步视频分割方法进行了研究,针对当前方法中无法考虑到全局信息的缺陷提出了时空体图割法。本方法不仅融合了谱方法中图割法能够综合考虑到数据的全局信息的特点来增强视频分割结果的有效性,而且充分利用了基于超像素的图像分割算法的鲁棒性和高效性来提高本算法的抗干扰能力和速度。大量实验证实,本算法不仅取得了和当前最好方法可比的性能,并在一定程度上弥补了当前方法局部性的弱点。
(2)提出了一种新的多层谱聚类视频分割算法。本算法是一种空域优先的视频分割方法,与现有的同类算法不同的是,它提出了一种全新的相邻帧间区域关系的模型:多层图模型。这种模型克服了现有空域优先的视频分割方法中参数化模型的局限性,是一种非参数化的,适用范围更加广泛的区域间关系表示模型。它能够更好的解决此类方法中空域分割的不稳定性问题。不仅如此,多层的模型还能够有效的融合局部相似性信息,把粗糙但稳定的和细致但不稳定的分割结果有效地结合起来,从而得到细致并且稳定的分割结果。实验证实了本算法相比于经典方法和目前流行方法的优越性。另外,本文还提出了相应的加速算法来适应视频处理数据量大的特点,以满足实际应用的需求。
(3)把视频分割算法引入到基于纹理合成的视频编解码框架中。在这个框架中,编码端的纹理样例选择是一个至关重要的步骤,好的样例不仅能够大大提高视频编码的效率,而且能够保证视频解码端纹理合成的视觉效果。原有纹理样例选择算法是基于传统编码框架下的宏块划分,虽然简单高效,但是完全无视场景语义信息的宏块划分会给后续处理带来不良的影响,甚至影响解码端合成的视频的视觉效果。本文提出了一种在视频分割的基础上进行纹理样例选择的方法,不仅能够保留传统编解码的高效性,而且融合了视频的语义信息,在一定程度上改善了其中的纹理样例选择模块的性能。