论文部分内容阅读
视觉显著性(Visual Saliency)是视觉感知与场景理解的重要研究内容,涉及认知神经科学、认知心理学、计算机视觉等多个学科。一个场景的显著性区域通常具有人类感兴趣的物体或目标,是能够在较短时间内吸引人视觉注意力的区域。显著性目标检测的目的就是找出给定自然图像中那些感兴趣的目标或区域的过程。近几年来,显著性目标检测已经成为一个热门的研究方向,吸引了越来越多研究者的关注。作为一项基础且重要的视觉任务,显著性目标检测被引入到图像处理中,用于自动定位、预测和挖掘符合人类认知的重要视觉信息,过滤不重要的背景信息,提高信息的处理效率,降低模型计算量。同时,显著性检测能够提供有效的先验性引导信息,可以被应用于弱监督语义分割、目标跟踪、图像编辑等任务中,辅助它们的实现。此外,随着软硬件技术的迅速发展,显著性检测技术在自动驾驶、工业机器人、人机交互等尖端领域也发挥越来越重要的作用。由此可见,显著性检测算法的研究具有广泛的应用前景和深远的科学意义。根据处理图像模态的不同,显著性目标检测衍生出多个不同的子分支,包括以RGB图像为输入的单模态显著性检测;以RGB和深度图为输入的多模态RGB-D显著性检测;以RGB和热红外图像为输入的多模态RGB-T显著性检测;以全聚焦和焦点堆栈为输入的多模态光场显著性检测等。在显著性检测领域,基于RGB图像的研究已经取得了较大的进展。但是,仍然存在显著目标结构分割不完整,提取的目标边缘粗糙、模糊等问题。而相较于RGB单模态显著性检测任务,针对多模态显著性检测的研究还需要进一步深入展开。特别地,当前对基于RGB-T和光场的显著性检测还处于研究初期。基于此,本文依托有效的深度学习理论,围绕上述四种不同输入模态的显著性检测展开相关研究,致力于提出精确、鲁棒的检测算法。具体来说,本文的主要工作和贡献如下:1.语义与细节协同学习的RGB显著性检测算法SDCLNet为了获得精确的显著性预测图,目前的方法主要聚焦于在类U-Net结构中集成多层特征,或引入边缘信息辅助监督。与现有方法关注的重点不同,本文研究了语义和细节在显著性检测中的不同作用,将显著性检测任务分解为内部语义估计和边界细节预测两个并行的子任务,并通过显式约束对各子目标进行优化。具体地,首先采用具有附加层的主干网作为共享编码器,从每幅RGB图像中提取多尺度特征。然后,设计了两个非对称解码器。其中,语义解码器生成粗糙语义掩模,细节解码器生成细粒度的目标边界。最后,一个协作学习块自适应地选择判别特征进行显著性预测。通过这种方式可以有效地融合语义特征和细节信息,生成准确、一致的显著性图。在六个基准数据集上的实验结果表明,所提模型生成的显著性图在主观视觉感知和客观评价指标方面均具有有效性和优越性。2.跨模态多重增强金字塔结构的RGB-D显著性检测算法CMPNet深度图包含几何线索,可以提供有价值的补充信息进而提高显著性检测的性能。现有基于RGB-D的显著性检测方法多采用早期融合、晚期融合或中间融合的方式来探索RGB图像与深度图之间的相关性。然而,这些融合策略未能充分捕捉跨模态和多尺度融合特征。为此,本文提出了一种基于多流结构的多模态增强金字塔网络用于RGB-D显著性检测。具体地,RGB、深度图和它们的组合首先被作为三流主干网的输入以显式地捕获两种模态的个性和共性。然后,设计的跨模态多增强块鼓励来自三个源的跨模态特征在每个网络层上进行综合交互,从而形成多模态金字塔特征。此外,为了将注意力集中在高层语义特征和低层空间结构特征上,提出了一个多尺度特征注意力块来处理不同层。最后,通过跨层融合注意块集成不同层的特征,生成预测的显著性图。实验结果表明,所提算法在五个具有挑战性的基准数据集上的性能优于同时期的其他算法。3.多模态交互注意及双解码的RGB-D/T显著性检测算法MIA-DPD基于RGB的显著性检测算法在处理目标轮廓模糊、前景与背景对比度低等具有挑战性的场景时表现的并不令人满意。为了缓解这一问题,基于RGB-D或RGB-T的显著性检测任务被提出。然而,当前它们通常被视为两个独立的视觉任务。而且,其中大多数方法直接从主干网中提取和融合特征。本文探索了这两个任务之间的潜在共性,提出了一个端到端的统一框架用于RGB-D和RGB-T的显著性检测。具体地,多模态交互注意模块有效地从每个模态中捕获丰富的多层上下文特征,作为特征编码和跨模态解码之间的桥梁。联合注意力引导的跨模态解码模块和多级特征渐进解码模块分别从多源特征和不同层次的融合特征中逐步集成互补特征。分别在RGB-D和RGB-T基准数据集上的实验结果表明,所提算法相较于已有算法在检测精度和模型泛化性方面表现良好。4.双重引导增强的光场显著性检测算法DGENet利用光场数据作为输入的显著性检测模型还没有得到深入研究。现有的深度显著性模型通常将多焦点图像作为独立的信息,单独提取其特征。这类方式可能比较繁琐,且过于依赖设计良好的网络结构。此外,它们没有充分挖掘信息的跨模态互补性和跨层次连续性,很少考虑显著边缘线索。基于上述分析,本文提出了一种考虑空间内容和明确边界线索的双重引导增强网络。具体地,所提模型包含两个关键组件:循环全局引导聚焦模块和边界引导语义积累模块。前者用于提取焦切片和RGB图像在不同网络层间的有效压缩信息,学习到的全局上下文特征通过渐进的反向注意驱动策略引导网络关注显著区域。后者引入显著边缘特征引导显著目标特征的积累,生成边界清晰的显著性图。在三个基准光场数据集上的实验结果表明,所提算法优于同时期的2D、3D和4D方法,而且能更有效地保证目标轮廓的完整性和锐利性。综上,本文从处理图像模态的不同提出一系列数据驱动的模型和方法,并采用理论分析与实验相结合的方式验证了它们的有效性。这些算法的提出丰富了视觉显著性检测领域的研究,为不同模态的图像显著性检测的发展起到了一定的促进作用。此外,本文给出了当前针对不同模态的显著性检测算法面临的问题与挑战,并展望了该领域未来的研究趋势。