论文部分内容阅读
作为计算机视觉的重要分支,立体视觉广泛应用于生物医学、自动驾驶、人机交互等嵌入式应用。通常,立体视觉系统包含摄像机标定、图像校正、立体匹配和三维重建四个部分。立体视觉系统根据双目摄像机从不同角度拍摄的两幅图像,经过一系列处理,恢复出物体深度信息。由于拍摄场景受到光照、噪声、反光、透视失真、遮挡、重复和低纹理的影响,立体匹配成了整个系统最重要和最困难的部分,匹配精度直接影响了三维重建的效果。另外,在保证匹配精度的前提下,对高分辨率图像的实时处理是实际应用的基本需求。本文提出了一种基于加权半全局聚合的高精度、高吞吐率的视差并行、行并行的全流水线架构,并搭建了基于FPGA的硬件架构和验证模型。主要贡献如下:(1)提出了一种基于半全局立体匹配的高精度、高吞吐的硬件架构。整个架构包含64个视差并行计算、相邻两行像素并行计算和五条路径代价并行计算。采用乒乓缓存和分时复用的特定结构,来实现半全局聚合模块的全流水线设计,提升整个架构的吞吐率。(2)通常的半全局算法软件实现选取8或16条路径来进行代价聚合,但是由于部分路径不符合数据流向,需要消耗大量的资源来存储中间数据,现有的半全局硬件实现以降低精度为代价将路径数目降为4条。本文在不使用外部存储器的情况下,提出了基于五条路径聚合的自适应路径加权的半全局硬件架构,实验结果表明,视差图精度提高了 3.69%。(3)为了提高视差不连续区域的精度,本文在平滑约束的惩罚因子计算中,对参考图像进行拉普拉斯边缘增强。另外,在视差优化阶段,增加了碎片去除模块来消除视差图中的异常值,并采用修正的等角插值方法进行亚像素插值,提高三维重建的精度。(4)完成了该架构基于FPGA的硬件验证,采用Middlebury测试平台提供的图像对进行匹配精度测试,平均错误率为6.03%。该架构在Altera公司StratixV FPGA上的最大工作频率为156MHz,最大视差范围为64,吞吐率为1280 × 960/197fps(帧/秒)。在Xilinx公司的VC707开发板上工作频率为100MHz,吞吐率为1280 × 960/126fps。但是由于特制的乒乓缓存结构,消耗了大量的片上存储资源进行数据缓存。综上所述,该架构完全满足嵌入式应用高精度、实时性要求。