论文部分内容阅读
交通场景理解是成功实现自动驾驶和车辆导航等应用的关键技术之一。研究视觉系统在处理交通场景信息时的关注特性、视觉敏感度、感知及快速解读能力,对交通场景理解具有重大的理论和实际意义。场景感知的主要挑战是高层视觉信息的复杂性。人类视觉系统是一个高级视觉信息处理系统,它能够快速处理接收到的信息,并以此来指导人类与世界的交互活动。当人类看到场景图像或视频时,感知的是其像素背后的三维物质世界。首先瞬间感知的是场景中所包含的表面空间布局;然后进一步获取交通场景拥堵评估、车辆和行人等目标的外观视觉特征、相对位置等,并进行信息加工处理,获得可通行道路区域的判断。这种信息处理的流程对机器自动的实现场景理解具有重要的指导意义。受人类视觉系统有意识地分层感知和分析特性的启发,我们设计了面向交通场景的空间布局理解和语义分割系统。复杂交通场景由于存在目标复杂多变、光照不均匀、阴影大片存在和交通目标物之间严重遮挡等因素,使得其整体理解比较困难。因此本文通过对处理复杂交通场景图像时利用低层、中层和高层多视觉特征来分层感知整个场景的研究,提出了场景空间结构布局理解方法,道路检测方法和语义分割方法,设计了能够对任意交通场景下实现不同物体自动精确分割和识别的系统。本文的主要研究成果和贡献概述如下:1.针对场景分割中基于像素分类计算较为复杂、使用特征类别较少,难以提高分类精度的缺点,提出了一种新的基于超像素多种特征来学习场景几何结构类别的模型。首先,在超像素基础上进行多视觉特征提取;然后,利用这些特征对超像素进行分类,再计算相邻视觉特征的差异,推断相邻超像素类别的一致性;最后,用初始分类和一致性分类结果构造基于马尔科夫随机场模型的能量函数,使用基于图割的优化方法确定超像素的类别。实验结果表明,该方法对特征的选择以及分类优化算法能够有效提高分类的精度,对交通场景能够实现较好的分割效果。2.针对传统图模型分割算法提取的物体边缘不够精细,难以适应复杂道路场景布局的问题,提出了一种基于多层图模型推理的道路场景分割算法。该算法将图像过分割为同质的超像素块,再采用随机森林模型训练超像素块的多类别回归器和相邻超像素的一致性回归器;然后用两种回归值计算马尔科夫随机场模型的能量项,通过推理得到初始分割;最后为了解决超像素块包含多类别带来的分类混淆,在初始分割基础上构建像素级的全连接条件随机场模型,进行优化得到精细的分割结果。实验结果表明,采用HGI算法对人工标注数据库和真实拍摄的场景图像处理能够得到精细的分割边缘,能够解决超像素推理中的类别混淆问题,与传统的马尔科夫随机场图模型分割方法相比,在总体精度和平均召回率两个指标上分别提高了2%和3%。3.针对道路检测采用图像外观特征对像素或区域分类,容易受光照、阴影和遮挡等复杂因素的影响,从而导致检测精度低的问题,提出一种结合场景结构信息和全连接条件随机场(CRF)模型的道路检测方法。首先,检测道路的消失点和道路边界线并生成道路的置信图;然后,基于超像素来训练场景结构布局模型,得到结构布局的估计;融合道路置信度图、布局估计图和图像外观特征构建基于像素的全连接条件随机场模型;最后,通过条件随机场模型推理得到分类结果。实验对比结果表明,采用结构信息和全连接条件随机场模型能够有效地提高道路检测的精度,对阴影和遮挡等复杂道路环境具有鲁棒性。4.基于深度学习的语义分割算法经常直接串联CRF模型作为后处理,没有有效利用网络提取的丰富特征,另外采用颜色和位置构建成对势能函数容易对小目标类别进行错误的类别推理。针对这些问题,提出了一种结合深度卷积网络和多层图模型推理的交通场景语义分割方法,将网络提取的特征用于图模型中能量函数的构建,并采用分层的推理方式,先将所有类别组合成大类进行推理,再进行所有子类的分割。这种方法在一定程度上能够避免多种类别间的混淆,并降低传统模型推理处理多类别时的运算复杂度。实验部分在两个基准数据库上与传统算法进行对比,采用语义分割常用的评价方法,验证了算法的有效性。上述研究涵盖了场景布局分割和语义分割,代表了不同层次的场景理解,信息的表达越来越丰富。对交通场景理解进行了深入研究,理论由浅入深,研究成果具有重要的理论意义及实用价值。