论文部分内容阅读
视觉显著性物体检测是当今计算机视觉领域的一个重要研究方向,其核心任务是通过模拟人类的视觉注意机制,从复杂的视觉场景中快速定位到最具有价值的区域,有选择地过滤掉其它非重要信息。该技术的这种特性使得它在现实生活中有着非常广泛的应用价值,如,自动驾驶、人机交互、智能监控、目标跟踪、环境感知等。近年来,随着深度传感器设备的快速发展和普及,人们可以很容易地获取场景中的RGB信息和相应的深度数据。以此为契机,更加符合人类视觉感知系统的RGB-D视觉显著性物体检测逐渐成为研究的焦点。然而,受制于深度成像技术和环境光照变化等影响,获取的深度图质量往往参差不齐。这使得如何减小低质量深度图的干扰,有效利用具有丰富空间结构的深度信息,成为该领域的一大研究难点。此外,受益于深度学习在计算机视觉领域上的突破性成果,采用深度学习进行RGB-D显著性检测逐渐成为该领域的主流方向。尽管深度学习在该领域取得了巨大的进展,但是也面临着另一大挑战,即大多数现有的显著性检测方法往往以较高的计算成本和参数量为代价获取高精度的检测性能,严重制约了算法的实际应用。因此,提高多模态特征的融合质量以及构造轻量级的显著性检测模型具有重要的研究意义。本文以探索更加符合人类双目视觉感知机理的RGB-D显著性检测模型为主要目标,针对显著性模型构建过程中的多模态特征有效提取和融合优化,以及模型轻量化等问题,进行了一系列相关研究。本文主要的工作内容及创新性研究成果具体总结如下:(1)针对传统基于手工设计特征算法的多模态特征融合不充分问题,以及边界接触问题,提出了一种基于深度信息引导的双边吸收马尔可夫链的多阶段显著性检测模型。该模型从低、中、高三个层次逐步整合优化颜色和深度信息,提取显著性线索,充分利用了深度信息的显式和隐式属性。具体地,模型首先显式地结合颜色和深度信息以构建初始的二阶稀疏图,并基于背景先验和区域对比度先验生成低水平的显著性线索。然后,构建了一个双边吸收马尔可夫链模型计算中层的显著图,在该层,为了有效解决边界接触和多模态融合问题,分别设计了背景种子筛选机制和跨模态多图学习模型,利用低级的显著性线索从图的连接方式和亲和矩阵对初始图模型进行改进。同时在该图模型中引入了非局部连接,增强显著性区域的一致性。最后通过构建基于深度引导的优化模块对中层的显著性结果进一步优化,得到最后的显著性预测图。一系列定量和定性的评价结果,证明了所提出模型的有效性和鲁棒性。(2)针对复杂场景下显著性物体难以描述的问题,提出了一种基于渐进引导融合网络的RGB-D显著性检测模型。该模型主要包括四类子模块,通过自上而下的方式不断地对它们进行交替级联,以不断增强和优化多模态特征的融合,逐步挖掘和整合有价值的信息。具体地,模型首先利用卷积神经网络分别提取多个层次的颜色和深度模态特征。然后,通过在每一层构建一个多模态多尺度注意融合模块,来充分挖掘在不同模态下和在不同尺度下的特征的互补性,实现最优的特征融合。其次,为增强浅层特征的语义表达能力,构建了多模态特征细化机制,利用高层融合特征引导浅层原始的RGB特征和深度特征的增强。最后,设计了残差预测模块进一步抑制背景元素,预测最终的显著性结果。相关数据集上的定性和定量对比分析结果,充分验证了所提模型的有效性和鲁棒性。另外,该模型在取得先进性能表现的同时,还能够较好地应对基于RGB图像和热红外数据的RGB-T显著性检测任务,表现出了优越的可迁移性。(3)针对网络模型复杂化、参数量大、占用计算资源多等实际应用问题,构建了一个轻量级的跨模态感知网络用于RGB-D显著性检测。为提升轻量级骨干网络的特征表示学习能力,设计了互注意增强模块并嵌入到深度特征编码流中,利用深层的语义特征以及模态间的相关性强化RGB和深度特征的表示能力。同时,提出了选择性相互调制融合模块和高层引导的特征细化机制来保证算法的运行效率和精确度。大量定性和定量的数据对比结果,证明了所提出模块的有效性以及整体算法的优越性、实时性和鲁棒性。