面向交通场景的空间布局理解和语义分割方法研究

来源 :西安电子科技大学 | 被引量 : 3次 | 上传用户:owennb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通场景理解是成功实现自动驾驶和车辆导航等应用的关键技术之一。研究视觉系统在处理交通场景信息时的关注特性、视觉敏感度、感知及快速解读能力,对交通场景理解具有重大的理论和实际意义。场景感知的主要挑战是高层视觉信息的复杂性。人类视觉系统是一个高级视觉信息处理系统,它能够快速处理接收到的信息,并以此来指导人类与世界的交互活动。当人类看到场景图像或视频时,感知的是其像素背后的三维物质世界。首先瞬间感知的是场景中所包含的表面空间布局;然后进一步获取交通场景拥堵评估、车辆和行人等目标的外观视觉特征、相对位置等,并进行信息加工处理,获得可通行道路区域的判断。这种信息处理的流程对机器自动的实现场景理解具有重要的指导意义。受人类视觉系统有意识地分层感知和分析特性的启发,我们设计了面向交通场景的空间布局理解和语义分割系统。复杂交通场景由于存在目标复杂多变、光照不均匀、阴影大片存在和交通目标物之间严重遮挡等因素,使得其整体理解比较困难。因此本文通过对处理复杂交通场景图像时利用低层、中层和高层多视觉特征来分层感知整个场景的研究,提出了场景空间结构布局理解方法,道路检测方法和语义分割方法,设计了能够对任意交通场景下实现不同物体自动精确分割和识别的系统。本文的主要研究成果和贡献概述如下:1.针对场景分割中基于像素分类计算较为复杂、使用特征类别较少,难以提高分类精度的缺点,提出了一种新的基于超像素多种特征来学习场景几何结构类别的模型。首先,在超像素基础上进行多视觉特征提取;然后,利用这些特征对超像素进行分类,再计算相邻视觉特征的差异,推断相邻超像素类别的一致性;最后,用初始分类和一致性分类结果构造基于马尔科夫随机场模型的能量函数,使用基于图割的优化方法确定超像素的类别。实验结果表明,该方法对特征的选择以及分类优化算法能够有效提高分类的精度,对交通场景能够实现较好的分割效果。2.针对传统图模型分割算法提取的物体边缘不够精细,难以适应复杂道路场景布局的问题,提出了一种基于多层图模型推理的道路场景分割算法。该算法将图像过分割为同质的超像素块,再采用随机森林模型训练超像素块的多类别回归器和相邻超像素的一致性回归器;然后用两种回归值计算马尔科夫随机场模型的能量项,通过推理得到初始分割;最后为了解决超像素块包含多类别带来的分类混淆,在初始分割基础上构建像素级的全连接条件随机场模型,进行优化得到精细的分割结果。实验结果表明,采用HGI算法对人工标注数据库和真实拍摄的场景图像处理能够得到精细的分割边缘,能够解决超像素推理中的类别混淆问题,与传统的马尔科夫随机场图模型分割方法相比,在总体精度和平均召回率两个指标上分别提高了2%和3%。3.针对道路检测采用图像外观特征对像素或区域分类,容易受光照、阴影和遮挡等复杂因素的影响,从而导致检测精度低的问题,提出一种结合场景结构信息和全连接条件随机场(CRF)模型的道路检测方法。首先,检测道路的消失点和道路边界线并生成道路的置信图;然后,基于超像素来训练场景结构布局模型,得到结构布局的估计;融合道路置信度图、布局估计图和图像外观特征构建基于像素的全连接条件随机场模型;最后,通过条件随机场模型推理得到分类结果。实验对比结果表明,采用结构信息和全连接条件随机场模型能够有效地提高道路检测的精度,对阴影和遮挡等复杂道路环境具有鲁棒性。4.基于深度学习的语义分割算法经常直接串联CRF模型作为后处理,没有有效利用网络提取的丰富特征,另外采用颜色和位置构建成对势能函数容易对小目标类别进行错误的类别推理。针对这些问题,提出了一种结合深度卷积网络和多层图模型推理的交通场景语义分割方法,将网络提取的特征用于图模型中能量函数的构建,并采用分层的推理方式,先将所有类别组合成大类进行推理,再进行所有子类的分割。这种方法在一定程度上能够避免多种类别间的混淆,并降低传统模型推理处理多类别时的运算复杂度。实验部分在两个基准数据库上与传统算法进行对比,采用语义分割常用的评价方法,验证了算法的有效性。上述研究涵盖了场景布局分割和语义分割,代表了不同层次的场景理解,信息的表达越来越丰富。对交通场景理解进行了深入研究,理论由浅入深,研究成果具有重要的理论意义及实用价值。
其他文献
该文在讨论了数字通信系统框架、信道编码及交织技术、数字调制技术及衰落信道的仿真、多级编码(MLC)系统的基础上,采用计算机仿真的方法,研究了采用BCH码做分量码且码率分配
语声信息恢复是通信声学系统中的关键技术之一,旨在通过消除噪声干扰和恢复被噪声掩蔽的语声信号成分,达到提高语声信号的可听度与可懂度的目的。压缩感知理论是近年来提出的一
黏着语是语言形态学中的一个语言类别,这一类别的语言需要大量依靠词素的屈折变化来表现文法关系。由于语音识别技术在发展历程中主要的研究对象是分析语或低屈折度语言,因此黏
学位
合成孔径雷达(SAR)是一种主动式微波遥感系统,其结合脉冲压缩和合成孔径技术,实现了利用小孔径天线取得高分辨率的成像特性。因其具有全天候、全天时获取高分辨率雷达图像的工
高分辨率光学图像港口舰船检测与识别技术在民用和军事领域发挥着重要的作用。随着卫星成像技术的发展,遥感图像数据在时间、空间上的分辨率越来越高。传统的使用图像分割或舰
海洋信道通信带宽窄,时-空-频变复杂,而且多途扩展严重,在较高速率通信下,时延扩展能够覆盖几十甚至上百个码元符号,造成严重的码间干扰(intersymbol interference,ISI),为实现可靠
多导人工耳蜗已广泛应用于治疗重度及深度耳聋疾病,其通过电流直接刺激听神经使耳聋患者产生听觉。由于当前人工耳蜗装置提供的电刺激并不能够完全有效地模仿听觉外周生理功能
DSP作为通用的数字信号处理器,在通信、数值运算、图像处理等诸多领域有着广泛应用,其强大的数据运算能力特别适合运算密集的应用场合。现代社会对DSP的应用越来越广泛,对新DSP
X光位置测量对于要求高品质、高稳定性的同步辐射光源具有重要的作用,它是同步辐射装置向广大用户提供可稳定使用光束的必不可少的条件之一,其测量值还是实验用户需要及时了解