论文部分内容阅读
作为计算机视觉领域的重要研究课题之一,立体视觉具有重建分辨率高、适用场景广泛、隐蔽性高、功耗低等优点。然而,立体视觉容易受到图像噪声、光照条件、场景结构、摄像机空间位置等多个因素的影响。特别是对于重建精度、实时性要求较高或特殊场景下的应用,还存在很大的挑战。虽然经历了几十年的发展,但除火星车导航等少数案例之外,立体视觉在实际应用中还难称成功。综合考虑实际应用中具体的性能要求,有针对性地对立体视觉进行问题建模、计算方法和系统设计多方面的分析与研究,将有助于推进立体视觉方法在实际中的应用。基于上述研究背景,本学位论文从提高立体视觉的准确性、适用性和实时性三个方面进行了研究。通过稀疏重建结果指导、建立球面立体视觉模型、多曝光视差融合以及专用硬件系统设计等方法,在一定程度上提升了立体视觉在复杂场景结构、大视场图像、高对比度环境以及实时运算处理条件下的三维重建结果。具体而言,本论文主要贡献如下:1.提出了场景预测模型指导下的深度重建方法。全局立体匹配算法相对于局部匹配算法,在基准测试立体图像中能产生更优的匹配结果。但是真实场景中通常包含复杂的场景结构,实际场景中许多类斜面和曲面区域并不符合全局立体匹配算法中平行平面(Fronto-parallel)假设。对此,本文提出通过特征点匹配得到的稀疏重建结果来建立场景预测模型,进而对稠密全局匹配进行指导的策略。通过将场景预测模型融合到全局立体匹配算法中的马尔可夫随机场(MRF)算法框架以及深度细化过程,提升了重建结果的准确性。2.提出了面向大视场的基于球面成像模型的立体视觉方法。基于透视模式的立体视觉方法,主要针对于有限视场角的图像传感器,无法应用于大视场环境的感知。为此,本文首先定义了基于球面模型的立体视觉方法。球面立体视觉方法理论上可以恢复出摄像机视场角范围内任意区域的深度信息。在立体匹配之前,通过极线校正和经纬度展开的方法,将球面模型转换为极线水平的等角图像。通过分析等角图像的特点,采用了亚全局(Semi-global)的立体匹配算法,兼顾了算法复杂度和匹配准确度。更进一步,设计了一种基于多次曝光的高动态立体视觉方法。通过融合不同曝光强度下的视差结果,得到高对比度场景的三维信息。3.针对车载系统的应用需求,设计了面向立体视觉实时计算的硬件系统。立体视觉算法具有较高的计算复杂度,在PC上通常无法实现较高分辨率图像的实时运算,需要使用特定硬件计算单元。为此,本文设计了以单片现场可编程门阵列(FPGA)作为运算核心的立体视觉硬件系统。针对立体视觉的计算需求,设计了数据处理流程以及控制这些复杂数据流的技术方法。4.提出了一种基于自适应权重的高性能立体视觉算法的硬件实现方法。基于自适应权重的局部匹配算法在显著地提升了匹配结果准确率的同时,也大大增加了所需的运算复杂度。本文通过并行处理的模式,在FPGA上设计该算法的实时实现结构。针对FPGA内有限的硬件资源,对初始自适应权重的算法进行一系列的算法改进,并通过评估和分析证明了算法改进的必要性和有效性。最终,整个立体视觉算法在单片FPGA上实现。高度并行的流水处理结构,使得系统可以实现640×480分辨率图像,每秒51帧的处理速度。与类似的立体视觉系统对比,当前基于自适应权重聚合算法的硬件实现在准确性与鲁棒性上都有相应的提升。本文最后对全文进行了总结和展望。