论文部分内容阅读
显著性目标检测致力于辨别图像中最醒目的目标或区域。近年来,显著性目标检测已经成为了认知领域和计算机学科内最为活跃的研究方向之一。作为图像的预处理步骤,显著性目标检测在视觉跟踪、图像识别、图像压缩、图像融合等视觉任务中起着至关重要的作用。传统的显著性目标检测算法过度依赖人工提取的特征,随着深度学习的广泛应用,基于深度学习的显著性目标检测研究取得了突破性进展。但目前大多数算法基于单一的RGB图像,获取的场景信息有限,在光照较差、背景复杂、对比低等挑战性场景下难以从背景中准确检测目标,而继续专注于RGB图像的显著性目标检测,对挑战性场景下检测性能的提升,可能收效甚微。本文利用RGB和热红外图像信息的补充关系,提出了一种基于多级深度融合特征的RGB-T图像显著性目标检测算法,并在公开数据集上进行实验,验证算法的有效性。论文的主要工作包括:首先,本文总结阐述了显著性目标检测领域的研究现状和基于RGB-T图像的计算机视觉算法研究,并着重介绍了三种与本文高度相关的主流检测算法,分别是基于短连接的深度监督条件下的显著性目标检测算法,基于流行排序模型的RGB-T图像显著性目标检测算法,基于多尺度深度特征和SVM的RGB-T显著性目标检测算法。然后,针对基于RGB图像的显著性目标检测算法难以在实际复杂多变的场景中准确检测目标,而目前有限的RGB-T图像检测算法难以有效融合多模态图像的互补信息,且基于深度学习的RGB-T图像算法无法实现对图像的端对端检测等问题,本文提出了一种基于多级深度特征融合的端对端的RGB-T图像显著性目标检测算法。该算法将RGB-T显著性目标检测的问题看作是深度卷积神经网络的融合问题,主要包括:(1)从支柱网络(如VGG16)的不同深度提取RGB或热红外图像粗糙的多级特征;(2)构建多个邻近深度特征融合模块对来自不同深度的特征进行融合,得到包含丰富细节和语义信息的多分辨率的多级单模态特征;(3)构建多分支组融合模块,对来自两个模态同一级的特征进行融合,得到跨模态的融合特征;(4)构建联合注意力指导的双向信息传递模块,实现不同级特征信息的融合,获得多级的边输出特征图;(5)融合不同边输出特征,预测RGB-T图像的最终显著图。最后,在Ubuntu 16.04.5环境下使用一块NVIDIA 1080Ti GPU(11G显存),采用Caffe深度学习框架搭建模型,以Matlab R2014b为接口编程语言,实现本文提出的算法。在开放性的多模态数据库上,详细阐述针对RGB-T图像显著性目标检测算法的训练方法,并设计对比试验,将本文算法与其它主流的显著性目标检测算法进行比较。实验结果表明本文算法在光照差、背景复杂和对比度低等挑战性场景中表现优于主流算法。算法检测到的目标更完整一致,且对背景的抑制能力更强。