论文部分内容阅读
基于计算机视觉的道路场景语义理解是自主车等智能应用的关键性支撑研究。为了增强自主车的环境理解能力,研究者们致力于彩色摄像机和激光雷达的异质数据融合的道路场景语义理解研究。由于激光雷达数据分辨率相对较低,如何与摄像机数据进行融合并获得像素分辨率的语义理解结果成为了研究的难点之一。其次,合理利用场景语义理解中子问题间的关系进行联合建模求解,也是提升自主车环境理解能力的热门研究方向。然而,联合问题中模型复杂度高、变量维数大带来的求解困难,一直是研究的难点。此外,在场景序列语义理解中,如何描述变量间在时间上高阶且不对称的关系,并获得更准确、时序上一致性更高的理解结果,成为该研究的第三个难点。基于上述研究背景和难点问题,本博士学位论文主要研究彩色摄像机和激光雷达的异质数据融合的道路场景语义理解,通过异质数据在不同层次的融合、合理地联合建模与求解,以及构建描述变量在时、空上一致性关系的混合图模型,获得了更为准确、时序上一致性更高、具有像素分辨率的道路场景语义理解结果。本文的主要内容和贡献如下:1、提出了一种异质数据融合的道路场景在线目标级图像分割方法。以往方法仅在特征层或决策层进行融合,并获得低于像素分辨率的分割结果。我们的方法不仅实现了特征层和决策层的数据融合,而且获得像素分辨率的分割结果。其中特征层的融合,通过对激光雷达点稀疏深度图的升采样方法实现。决策层的融合主要体现在两个方面:一方面通过激光雷达数据获得目标假设的种子点,实现了在线的目标检测和目标级图像分割;另一方面在构建的图模型中添加了基于种子点的硬约束,提升了图像分割的效果。2、有别于传统联合求解问题只包含离散取值的标签,提出了一种联合建模求解离散取值标签与连续取值标签的方法。构建的联合模型使用交替方向法(Alternating Direction Method, ADM)进行迭代求解,其中连续取值标签可以通过一种线性计算方法获得。该方法应用于道路场景下离散取值的目标标签与连续取值的深度标签的联合建模求解中,较好地解决了以往离散取值深度标签求解复杂度高、深度结果精度损失的问题。实验表明,该方法能获得与以往方法相比更为准确的图像分割与深度升采样结果。3、提出了一种异质数据融合的道路场景目标级图像分割与语义标注联合建模求解的方法。在决策层数据融合中,通过激光雷达三维点的目标假设获得图像二维目标假设检测框,避免了以往方法中对目标检测的离线训练以及对整张图像窗口式的目标搜索。与以往复杂的联合模型不同,该联合模型满足半度量的约束,可以使用快速有效的图割算法进行求解。实验表明,该方法能同时提升目标级图像分割以及语义标注的效果。4、有别于传统的概率图模型,构建了混合图模型用于解决道路场景序列图像语义标注问题。其中,用简单边描述单帧内相邻变量间的空间关系,用超边描述变量间在时间上高阶、不对称的关系。该模型较好地克服了包含高阶能量项的简单图模型难以求解,以及简单边描述能力局限的缺点。此外,为了将基于混合图的分割问题推广为语义标注问题,我们在模型中添加了经验式的损失函数。该混合图模型在求解上被转化为线性优化问题,并使用线性计算方法进行求解。实验表明,与传统简单图模型相比混合图模型可以获得更为准确、在时序上一致性更好的语义标注结果。