论文部分内容阅读
选取并简化场景中的复杂信息是人类视觉系统的主要特性之一。计算机视觉领域效仿人类视觉上的这种特性,引入了显著性检测。显著性目标检测作为一种图像的预处理步骤,其目的是获得图像中最吸引人注意的区域。它被广泛的应用在如视频压缩、图片合成等领域。近些年来随着深度学习的迅猛发展,大量计算机视觉任务由手工设计算法转变为设计深度学习模型解决问题。这一点对显著性检测领域也不例外。大量的基于卷积神经网络的方法取代了早期基于启发式的方法,其中一些模型带来了性能上的大幅度提升。然而,这些模型依旧存在一些问题。例如,一些早期的方法使用全连接层来预测显著性结果,这会导致空间信息的损失并占用大量的计算资源。全卷积神经网络的出现促使包括显著性目标检测问题在内的端到端、像素到像素任务的进步。但随之带来了新的问题,即如何有效的利用多级特征去获得高质量的显著图。一些方法仅仅使用深层特征或简单的方式融合多级特征,这都会影响最终的预测结果。本文提出了一种门控深层融合模型用于显著性检测,旨在充分且有效的利用网络中不同上下文信息以获得高质量的预测结果。首先,利用VGG16作为特征提取网络提取多级特征,被提取的多级特征将被使用在融合阶段。然后,本文引入一种用于解决语义分割问题的深层融合思想。根据人类视觉系统对于场景信息的提取是粗略到精细的过程,被提出的方法采用从深层(位置信息)往浅层(细节信息)融合多级特征代替原来的融合多级特征的方式。尽管这种深层融合的方式能够使不同层级的特征充分结合,但并非所有信息都对显著性预测是有益的。因此,在信息的传递过程中加入了门控函数用来控制信息在网络中的传输。门控函数允许有效信息传递,阻碍无用的信息。据此,本文设计了一种既充分又能有效融合多级特征的融合模块。最后,为了获得良好的预测结果。门控融合模块的不同侧输出被结合作为最后的结果。在训练过程中,两个大型的公开数据库被使用作为训练集。为了获得更多的训练样本,使用镜像、旋转等方式扩充数据增加了网络模型的泛化能力。为了验证被提出方法的有效性,本文在4个权威数据集上对被提出模型进行评测,为了全面评估模型的性能。本文比较了 14种表现优异的算法。这些方法涵盖了各个类型的显著性检测模型,包括基于启发式的算法、基于传统机器学习的方法、基于卷积神经网络的模型。本文的算法在多种指标下展示了良好的性能,表明了被提出方法的有效性。