论文部分内容阅读
立体视觉是计算机视觉的一个重要分支,它以不同位置的两幅图像或两段视频作为输入,恢复场景空间点的三维坐标,得到场景物体的三维建模。立体视觉系统的实现一般分为图像获取,图像校准,立体匹配,三维重建四个步骤。其中,立体匹配是最关键也是最困难的一步,其目的是为了获取场景的视差图。目前,对立体视觉的研究也主要围绕立体匹配展开。本文从理论和实际应用的角度,对立体视觉中的立体匹配技术及其应用进行了一些新的探索。本文的主要贡献如下:
1)提出了一种基于场景层次和图像分块的遮挡模型,并依据这一遮挡模型,定义了用于匹配比较的数据代价函数,指导立体匹配。我们首先对扫描线上的各种遮挡情形进行了细致的分析,形式化的定义了两条前后景之间的遮挡关系。在引入GCP像素的概念后,我们讨论了动态确定半遮挡像素的方法,以图像块为匹配基元,定义了遮挡模型。和同类研究工作相比,我们建立的遮挡模型立足于算法智能化和实用化,辅助算法对场景层次结构进行自动的分析,无须定义交互调节参数,具有较强的普适性和充分的理论依据。由于遮挡模型独立于匹配算法,因此,我们提出的这一场景层次遮挡模型也适用于任意基于图像分块的全局优化算法。
2)应用前述场景遮挡模型,提出了一种基于图像分块的从前景到后景分层处理的动态规划算法。图像块取代像素成为匹配基元,突破了传统的动态规划算法只能依据扫描线在水平方向建立遮挡模型的约束。一般来说,离摄像机最近的景物图像块因为不受遮挡的影响,总是最容易匹配成功。稍远一些的景物可以利用已经计算出来的前景GCP像素,建立局部的遮挡模型指导匹配。这样,我们就可以从近景到远景逐层进行匹配,得到完整的场景遮挡模型,并剔除了场景中不存在的视差。我们将算法应用于标准的测试图集,并和国内外的主要算法进行了定量的比较。实验结果表明,我们的算法精度高,强壮性好,在无纹理区域、深度变化边界区域、遮挡区域都达到了很高的识别率。
3)提出了一种基于图像分块和信度扩散(Belief Propagation)技术的眼底视盘三维重建算法。SDP是病人眼底视盘的立体图像对,在眼科疾病的诊断和治疗中用来为医生提供直接的信息。为了能直观的显示出病理特征,提高诊断效率,预防医疗事故,对SDP图像对进行三维成像已经得到了部分研究者的重视。我们利用图像分块技术,将SDP图像对映射到贝叶斯网络中,并结合SDP自身的特点,定义合适的代价函数,在代价函数和概率模型之间建立起一一对应的关系,然后利用信度传播算法求取最佳视差图,最终恢复三维眼底图形。和同类算法相比,基于贝叶斯网络的信度传播技术有着扎实的理论基础,不用预先建立任何假定的眼底模型,实验结果表明,我们的算法得到了较为理想的眼底图形,是立体匹配技术在生物医学研究领域中的一个典型应用。
4)提出了一种基于立体匹配和手臂朝向的简单手势识别算法。在立体视觉的环境下,可以获取手臂与手势的视差图。因此,我们考虑应用手势的深度信息和手臂的朝向信息,对手势在三维空间中进行相应的变换,得到和成像平面平行且朝向与模板库中预定义方向一致的手势图像,再与模板库中的预定义手势进行比较。和同类算法相比,我们仅需要在模板库内为每一个手势保存单一姿态的图像,同时节省了储存空间和匹配时间。我们的算法简单、直观,对每一待识别的手势,不用设定任何辅助参数。实验结果表明,在满足手臂和手势朝向一致的假设下,算法能达到较高的识别率,对各种朝向的手势都有着良好的支持。
5)对立体视觉环境下的立体匹配技术进行了深入的探讨和详尽的理论分析,提出了一种以立体视频为输入、基于mean-shift迭代技术的三维运动快速重建算法。与对静态图像进行匹配和重建不同,从立体视频中恢复物体的三维运动是一项具有更高挑战性的研究,既需要依据立体视频对确定目标物随运动而变化的空间位置,也需要在时间轴上确定其二维图像位置,这就大幅提高了匹配的难度。我们以平面状的简单物体作为研究目标,参考二维图像运动跟踪中得到广泛应用的mean-shift算法,并将其推广到三维的情形。为了描述三维物体的特征信息,我们引入m-bin直方图,将ROB彩色空间和视差空间结合起来,定义了四维特征空间,并建立起跟踪目标的概率模型和基于Bhattacharyya系数的迭代公式,最后,我们通过mean-shift迭代算法确定目标物运动后的投影像素集和结果视差图。实验结果表明,我们的算法在时间和精度上做到了较好的折衷,能够准实时的恢复出三维运动平面的大致形状,能够实时恢复较小目标物的质心运动轨迹,达到了算法的预期目的。