论文部分内容阅读
数字图像已成为信息传递的有利载体,广泛应用于社会生活的各个领域。对图像中的场景进行分析和理解是计算机视觉的目标之一。街景与人们日常生活紧密相关,对这类图像进行语义分割和理解具有广阔的前景,但也充满挑战。目前的图像分割算法大多是针对某一类图像进行的,且图像场景比较简单,包含的对象类别较少;同时,一般的图像分割算法对图像的旋转、缩放和亮度等信息比较敏感,势必会造成因上述信息的变化而产生不同的分割结果,从而产生误分割。近年来,把图像分割和图像的识别与理解结合起来,对输入图像进行语义分割的研究非常活跃,但是当图像中同时存在多类不同形状和大小的对象时,如何有效地获取不同语义对象之间的边缘信息,依然是个具有挑战性的问题。街景图像内容丰富,包含多种对象类别,相当复杂,对这类图像进行语义分割,具有非常重要的研究价值和实际应用价值。本文针对街景图像,提出了利用空间极值点作为分水岭分割算法的种子点,对输入图像进行分割,然后结合图像识别技术,利用高阶马尔科夫随机场模型,对图像进行标注,完成输入图像的语义分割。首先,构建输入图像的高斯金字塔,获得不同尺度下的版本,提取出其空间极值点,作为分水岭分割算法的种子点。根据图像分割的两个基本原则,对分水岭分割算法的输出图像进行去除噪声区域和合并满足相似性判决阈值的区域,得到无监督初始分割结果。其次,针对单纯利用图像的视觉特征不能得到较好的对象边缘的问题,本文除了采用外貌特征、形状特征和上下文特征等视觉特征外,还利用了包含丰富结构信息的相对于摄像头的高度、距摄像头轨迹最近距离、与图像平面之间的夹角、追踪到的点密度等五种几何特征,以获取语义对象之间的边缘信息;另外,在语义识别的过程中,通过在马尔科夫随机场模型中引入高阶项,以初始分割结果作为该高阶项的输入,进一步增强语义对象之间的边缘响应。本文的研究重点主要包括:(1)如何获取在一定程度上满足人眼视觉感知特性的无监督初始分割结果;(2)应用外貌、形状和上下文等三种视觉特征和相对于摄像头的高度、距摄像头轨迹最近距离、与图像平面之间的夹角、追踪到的点密度等五种几何特征进行图像边缘检测和识别;(3)在马尔科夫随机场模型中加入高阶项以加强图像识别效果。实验结果表明,利用空间极值点作为分水岭分割的种子点,具有很强的鲁棒性,同时,这种算法提取出的种子点不随图像尺度变化而变化。在马尔科夫随机场中,加入了高阶项之后,能够较好地保持对象间的边缘,获得了较好的语义分割效果。