论文部分内容阅读
计算机视觉是一门让计算机拥有理解周围复杂环境能力的学科,具有重要的理论研究意义和应用价值。但是目前计算机视觉系统大多采用二维信息处理方式,如智能交通系统,视频监控系统中仅仅采用单摄像头进行智能处理,缺乏对环境深度的感知,这在一定程度上给系统的可靠性和鲁棒性带来了隐患。随着越来越多计算机视觉应用技术逐渐走进人们的生活,提升着人们的生活质量,改善着人们的生活方式,对计算机视觉系统可靠性与鲁棒性的要求也越来越高。针对目前基于二维感知的计算机视觉系统的不足,本文以提升系统的可靠性和鲁棒性为目标,研究三维立体视觉的若干关键技术,主要可以分为两个部分:感知和认知。感知方面在二维颜色图像的基础上,以深度估计着力点,研究基于双目立体视觉的被动深度估计技术和基于深度补全的主动深度估计技术;认知方面以最基本的认知任务目标检测为着力点,研究基于三维信息的目标检测技术。本文的研究内容和主要创新点如下:1.针对双目立体视觉算法中性能和可靠性不足的问题,着重研究如何提升立体匹配算法的精度和模型的鲁棒性。针对传统算法中匹配代价计算精度不足的问题,提出了基于卷积匹配网络的视差估计方法,该方法通过训练计算图像块相似度的卷积神经网络,将匹配代价计算与卷积神经网络输出联系起来,然后基于计算好的匹配代价使用一系列立体匹配后处理步骤(左右一致性检测和插值,十字交叉代价聚合,亚像素增强,中值滤波,双边滤波等)计算视差,该方法极大的提升了视差估计的精度;针对立体匹配算法在困难区域性能不好的问题,提出了基于重构误差的编码-译码网络视差估计算法,该算法采用端到端的训练方式,编码阶段的前两个卷积层特征用于计算匹配代价,余下的部分用于对匹配代价进行特征提取,译码部分完成对视差的估计,在视差估计过程中将重构误差以跨层连接的方式加入译码网络部分,重构误差用于描述立体图像内在的几何约束,能有效的提升立体匹配算法整体的性能;针对立体匹配算法模型泛化能力和鲁棒性的不足,本文提出了基于特征不变性视差估计算法,当前基于深度学习的方法往往不包含视差优化过程,限制了立体匹配性能的进一步提升,本文基于特征一致性提出视差优化子网络,通过权值共享与视差估计子网络紧密耦合,模型级和层级匹配代价计算互相补充,有效的提升了视差估计精度,两阶段精调和随机训练机制能显著提升模型的鲁棒性和泛化能力。2.针对当前最流行的主动深度估计激光雷达分辨率不足的问题,本文提出基于深度学习的深度补全算法。该算法使用编码-译码网络,编码部分为两条支路,稀疏深度图支路采用稀疏卷积层用于处理稀疏数据,颜色图支路采用标准的卷积层提取图像引导信息,编码阶段,将图像引导信息以及稀疏深度图特征在不同的尺度下进行融合,同时在多个分辨率下进行深度补全。其中稀疏卷积层能有效的处理稀疏数据,对稀疏程度具有不变性,编码-译码网络结构能充分提取图像和深度图中的语义信息和上下文信息,该算法能有效提升深度补全的精度。3.针对当前目标检测算法可靠性不足的问题,本文着重研究基于三维信息的目标检测算法。针对传统颜色图特征表达能力不足的问题,提出3种基于深度信息的几何特征,并使用贝叶斯分类器将几何特征与颜色特征进行融合,完成候选窗口生成任务,该方法有效的提升了候选窗口生成的质量;针对传统手工特征设计困难、性能不足的问题,提出了基于深度、边缘和高度三通道的候选窗口生成算法,该方法将候选区域窗口形式化为基于深度学习的分类问题,将图像的深度图、边缘图和高度图代替RGB三通道作为卷积神经网络的输入,使用端到端训练的方式,将网络输出置信度作为结果并排序,该方法能有效提升候选窗口生成的性能,并对距离变化具有鲁棒性。上述两种方法均使用Fast-RCNN方法进行目标检测,都取得了很好的性能。