论文部分内容阅读
语义分割,旨在识别图像中物体的语义类别并定位其边界,是机器视觉领域基础和核心的问题之一。虽然历经了几十年的研究,但已有语义分割系统在处理复杂自然场景时的表现依然不尽如人意。作为像素级分类问题,语义分割致力于获得具有视觉均一性和语义一致性的区域,在识别语义类别、分割复杂物体、定位分割区域边界等问题上不断尝试进取。本文的研究目标是提出能从本质上克服语义分割所面临的各种困难的算法,提高分割的准确率,增强分割系统对复杂场景的适应性。本文提出的语义分割算法被应用于基于内容的图像语义检索任务,能够获得更加符合人类理解的高精度检索结果。 本文的主要贡献如下: 1.在传统机器学习的框架下,提出了一种结合深度概率边缘信息的图像分割方法。首先利用具有自适应色彩带宽的均值漂移算法对彩色图像进行预分割,接着对彩色图像边缘进行融合计算得到深度概率边缘的估计,最后利用可靠的概率边缘完成对预分割结果的校正。该算法可以有效地利用深度信息,减少因色彩变化而造成的过分割现象,较好地解决色彩相近的物体相互遮挡时难以分割的问题。 2.以深度学习为工具,提出了若干基于深度神经网络的语义分割算法。 首先从有效利用图像上下文关系的角度出发,提出了一种利用深度信息的深度卷积马尔科夫随机场方法,据此可以建立色彩、位置、深度三者之间的图像上下文长程依赖关系,从而很好地提升语义分割在语义标签的兼容性和预测物体的连续性上的表现。 其次结合传统方法和深度学习方法各自的优点,提出了一种基于RGB-D图像正则化的全卷积深度神经网络方法。由于使用人工设计的底层特征替代深度神经网络提取的特征,减少了系统在信息表达上存在的冗余性。该方法能够有效地减少语义分割网络的层数,提升模型的训练效率和语义分割的准确性。 最后为了准确定位语义物体的边界,提出了一种基于宽残差提纯的边缘保留网络模型。该模型利用宽残差的跨层结构来实现低层结构特征和高层语义特征的融合。所设计的残留特征金字塔可实现对多分辨率特征的融合,提升模型对多尺度物体的语义分割能力。 3.在基于深度学习的语义分割中,提取的特征既是对图像视觉内容的表述,又是对图像语义内容的表征。将其应用于基于内容的图像检索可以缩小语义鸿沟。作为本文所提出的语义分割算法的一个应用,提出了采用简单的余弦相似度来实现基于内容的图像语义检索的方案。为了提高检索的效率和精确度,设计并实现了一种二步检索策略。首先在语义分割网络中增加哈希编码层,利用适当设置的阈值获得图像的二值哈希编码,结合汉明距离可实现粗略检索,获得检索子集。其次在检索子集中,利用语义分割网络提取到的特征进行精细检索,据此可在有效节省存储空间的条件下,高效率、高精度地实现基于内容的图像检索。