论文部分内容阅读
随着三维视频需求的快速增长,二维视频的三维转化问题成为计算机视觉和多媒体分析新的研究热点之一。针对大部分已有的视频转换算法需要恢复相机参数的问题,本文设计了一种基于多线索非参数化融合的单目视频深度图提取方法。在非参数学习的基础上,联合图像轮廓线索、几何透视线索及帧间空时相关性,估计相对准确的视频深度图序列。本文的主要研究工作和创新如下:1.针对目前的深度图估计大多使用单一深度线索且容易出现深度估计偏差的问题,提出一种基于前景背景融合的单目图像深度图估计方法。其中前景深度层主要反映场景显著性区域内的深度,其估计方法是建立在具有相似语义或光学度量的场景具有相似深度的假设上;背景深度层反映场景整体的深度分布趋势,通过分析场景的几何透视线索获得。2.针对基于非参数化学习估计的初始前景深度图存在边界模糊、场景结构相对杂乱的问题,提出一种基于图像分段诱导的初始深度优化方法。首先,基于图模型对原始图像进行过分割,利用其分割结果划分图像场景中的不同物体;接着,在初始前景深度图中相应的各分割区域内,采用均值赋值法优化深度值。该方法能将场景中物体边界及其位置信息有效地嵌入至相应深度图以改善其精度。3.和传统的基于几何线索的深度图估计不同,本文采用线性透视原理提取背景深度图。借助语义自动成组AGS(Automatic Grouping of Semantics)方法估计单目图像中相应的消失点,据此线性地分配背景深度层中的深度信息。背景深度层的几何线性透视类型有如下五类:上-下透视、左-右透视、右-左透视、左上-右下透视和左下-右上透视。该方法提取的背景深度层能整体反映给定的视觉场景中全局的深度分布趋势。4.不同于简单深度图视频估计直接将各帧深度图拼接成视频深度图序列,本文采取联合帧间空时关系的单目视频序列深度图估计。在单幅图像深度图估计基础上,引入时间相关性和运动约束项,共同构成视频深度学习的非参数模型。该方法能有效提升视频深度图估计中帧间深度连续性,抑制单目视频序列中运动物体的深度偏差。实验结果表明,针对未提供相机参数的单目视频序列,本文估计方法能获得场景结构明显、显著物体边界、物体位置相对正确且帧间较为连续的深度视频序列,以有效实现二维视频的三维转化。