论文部分内容阅读
人眼对获取的景象有相当的深度感知能力,而这些感知能力又源自人眼可以提取出景象中的深度要素。当前的立体视觉技术都模拟了人眼的视觉系统,主要根据左右眼得到的两幅略有差别的图像,生成目标的深度信息。人们对立体视觉技术预期的应用市场非常广泛,包括立体电影,立体视频会议,立体医学成像、立体卫星成像等。立体视觉技术正以不可遏制的步伐迈进我们的生活。立体匹配是立体视觉的关键技术,其工作就是找到同一目标在不同视图中的对应位置。视差就是指对应位置之间的几何差异。近些年来,立体匹配技术引起了国际上的广泛关注,在算法改进及平台建立上都取得了长足的进展。当前视差图求取算法分为全局立体匹配算法和局部立体匹配算法,无论基于全局的匹配,还是基于局部的匹配,都有其自身的弱点,局部匹配算法一般达不到较高的精度,全局算法相对于局部匹配算法虽然能得到较好的匹配质量,但是其算法复杂度高,耗时较长,很难实现立体匹配的实时运算。随着3D技术的不断发展,人们对立体匹配的质量和效率的要求都在不断提高。本文针对立体视频数据量大、立体匹配算法效率较低,远远满足不了实时传输需求的现状,从立体匹配效率方面进行考虑,提出了一种用于单视加深度立体视频编码的快速立体匹配算法。由于单视加深度立体视频编码方法,只编码参考视点(如左视点)和左右视点的视差/深度图,可以大大减少传输的数据量,被认为是很有前景的立体视频编码方法。本文算法即是应用于单视加深度立体视频编码的立体匹配算法。本文对立体视觉技术及立体匹配技术进行了介绍,以一种结合了图像分割和置信传播算法的立体匹配算法为基础,该算法解决了单一算法所出现的问题。本文算法结合了单视点视频编码技术(H.264),利用单视点视频序列编码过程中产生的运动信息作为深度图生成的辅助信息,将I帧立体匹配过程中的视差匹配初值模板重组,并将重组后的信息作为P帧的视差估计模板进行后续的匹配运算,避免了重复分块、重复拟合,从而改善了单视加深度立体视频编码中立体匹配耗时过多的问题。本文算法是通过C语言和Matlab混合编码实现的。采用多视点视频序列“breakdancers”的2、3视点和“book-sale”序列对作为实验视频序列,并对实验结果从算法的效率和质量两方面加以分析。实验结果表明,本文算法能在不降低匹配质量的前提下,使深度编码中视差图的生成速度提高一倍左右,大大提高了立体视频的编码传输效率。