论文部分内容阅读
随着计算机视觉领域的飞速发展,显著性物体检测在近年来作为视觉感知的注意力模拟方向得到广泛关注。人眼视觉感知系统可以快速精准地定位到视觉场景中具有高区分度的、吸引人关注的物体或场景区域。这种高效的视觉注意力机制引发了计算机视觉领域对人眼视觉感知能力的模拟、研究与探索。人眼视觉注意力机制通过对视觉空间内的局部信息进行分析整合,建立对整个视觉场景的理解。显著性物体检测旨在高效过滤视觉场景中的非重要信息,辅助抽取人眼视觉感知中的高阶语义信息,以模拟人类视觉感知系统的机制。因此,如何通过设计算法或模型,模拟实现人眼视觉系统的这种注意力机制,以快速定位到图像场景内的重要局部信息,正是显著性物体检测所要解决的问题。本论文从视觉显著性触发的外源性和内源性出发,针对自底向上和自顶向下的显著性物体检测方法中的问题,进行算法提升和模型研究,对于推动视觉注意力机制的研究有重要意义;此外,根据图像及视频数据场景的不同特点,从无监督及有监督方法,深度模型泛化能力迁移以及时空显著性建模等角度,提出相应的改进算法或创新模型,在图像及视频的显著性物体检测任务上取得了一定的研究成果,丰富和完善了本领域的研究。现将本文的主要研究内容总结如下:(1)针对现有自底向上方法在不满足显著性先验的情况下会产生更多的错误结果的问题,提出一种基于图(Graph)结构的多种先验融合的无监督检测方法。该方法从物体性和显著性的角度出发,提出利用测地距离进行相似矩阵和非正则化的拉普拉斯矩阵的构建;在显著性图增强方面,通过对流形排序的查询结果进行显著性优化,之后利用多层元胞自动机更新的方式集成多种特征的显著性图,从而提升最终显著性图的质量;在实验设计上,通过对比每个组件步骤与基线方法的消融实验结果,论证方法在特征选择和特征显著性图优化,以及多特征显著性图融合等方面的有效性;同时,通过交叉数据集验证,对比多种方法以验证其在多个标准数据集上的性能,并论证其适用范围与算法的瓶颈。(2)针对无监督方法自身局限性以及图像转换工作在显著性物体检测任务上的缺失,提出一种基于生成对抗网络的显著性物体检测与显著性到自然图像的转换模型。该模型以生成对抗网络在图像转换问题上的应用为切入点,通过引入Wasserstein距离和L1范数损失来稳定生成对抗模型的训练过程,并以此实现了一种基于生成对抗网络的显著性检测模型;同时,通过改变图像转换方向,从显著性和所处上下文环境之间关系的角度,论证了显著性检测在图像转换模型的有效性和可行性。所提模型在多个显著性物体检测标准数据集上进行了消融实验对比,并与多种无监督和有监督方法进行了结果对比论证了方法的有效性,同时在显著性图到生成自然图像的转换任务上,通过扩展实验探索显著性物体与上下文环境间的共现关系。(3)针对基于深度卷积神经网络的有监督方法在显著性物体检测任务上存在的显著性图不够精细,边缘、角点等细节信息丢失的问题,提出了一种基于多尺度注意力机制的显著性物体检测深度编码译码模型。该模型从深度监督学习的角度出发,利用通道和空间注意力机制对卷积神经网络输出的多尺度特征图进行特征配准和增强。在深度监督框架下,显性地对多尺度注意力模块及参数进行有监督学习。最终,通过对多尺度的预测结果进行结果融合生成更准确精细的显著性图。该方法在多个显著性基准数据集上取得了较好的性能。并通过设计消融实验,分析论证了在显著性图细节保留、多尺度信息融合等方面的模型有效性。(4)针对现有循环神经网络模型在处理动态视频数据时的模型规模与精度权衡问题,以及多分支网络的模型复杂度和旁路运动信息抽取等弊端,提出一种新型的具有短时交叉记忆功能的编码译码模型,并将其应用于视频显著性物体检测任务上。该模型通过迁移静态图像显著性检测模型的泛化性能来保证帧内显著性检测的准确性,同时,设计使用自注意力模块和交叉注意力模块来捕捉帧间显著性物体检测的相关性和一致性。在相似网络框架下,通过双向交叉模块对显著性物体进行短时记忆,从而保证了检测的性能。实验证明所提出的模型在多个公开数据集上均能取得较高的检测性能。通过消融实验分析论证了所提模型各个模块设计的有效性,以及将静态显著性物体建模型泛化能力迁移到动态视频数据的可行性与高效性等。