论文部分内容阅读
随着智能手机的普及以及微信、微博等社交媒体的迅速发展,图像已经越来越广泛地融入到人们的日常生活当中。一图胜千言,图像在为人们的生活、教育和商业带来便利的同时,也为视觉信息处理技术提出了新的挑战。一方面,随着图像数据的爆炸式增长,如何利用有限的计算资源实现海量图像的高效存储、检索和传输变得越来越重要。另一方面,智能时代的应用场景对图像的感知理解提出了新的要求,需要计算设备从大量的视觉信息中选择少量重要部分进行深度分析。受人类的视觉注意力机制启发,研究人员提出的显著性目标检测技术能够预选对图像进行筛选,提取图像中引人关注的目标,排除图像处理中的干扰信息,从而快速提升图像处理的效率。 显著性目标检测技术在理论和算法上都已经取得了巨大进展,在简单场景中可以获得令人满意的检测效果。然而,复杂场景下的显著性目标检测面临着诸多难题需要解决:1)显著目标特征描述问题。目标对象的物体性能够显著提升模型的检测效果,但是复杂背景带来的低对比度、目标自身的内在差异性和目标分布的多样性给前景目标对象的描述带来了重大的挑战,基于人工定义的目标对象描述并不能准确地提取到有效的前景目标对象。2)显著特征的关联融合问题。每种显著特征都有一定的局限性,单一特征往往很难从复杂图像中提取出完整的显著目标对象。不恰当的特征融合方法不仅不能生成符合人类视觉的显著目标,还可能进一步降低显著目标检测模型的准确性。3)显著目标检测模糊问题。人眼对目标场景的信息采集是一个动态持续的过程,显著性目标检测任务与高层、中层和底层三种层次的视觉特征紧密相关,如何在统一的认知框架中生成上述特征的紧致表达是显著目标精准描述的基础。多尺度显著特征的感知是一个自低而上传播和自顶而下反馈结合的复杂处理过程,基于深度学习的检测模型未考虑多尺度视觉特征和显著知识间的关系,因此导致检测中目标细节的缺失和描述的模糊。 针对以上难点与问题,本文对基于拉普拉斯特征映射的显著目标检测,基于深度网络的多显著特征融合,以及基于循环注意力机制的显著目标检测进行了深入的研究,由此构成了一个以鲁棒目标特征描述、深度特征关联融合和多尺度特征动态编码为目标的研究框架。 本文的创新点主要有: 1提出了基于拉普拉斯特征映射的显著性目标检测算法。算法实现了一种基于拉普拉斯特征映射的本征对象生成方法,运用拉普拉斯算子的谱特性将前景目标的定位问题转化为代表前景与背景最佳分割的本征图像搜索问题;算法提出了一种基于本征对象的前景边缘消除算法,有效解决了显著目标物体接触到图像边缘时带来的边缘背景先验失效问题;算法实现了融合本征对象性先验和鲁棒边缘背景先验的显著目标检测模型,同多种主流的显著目标检测算法的对比结果证明了方法的有效性。 2提出了一种基于深度网络的多显著特征融合模型。模型实现了集成前融合网络、后融合网络和特征图优化网络的多通道显著特征深度融合框架。前融合网络能够挖掘显著图之间的相关性,放大多显著特征的共性显著区域,同时抑制共性的非显著背景;后融合网络逐层抽象多种显著特征,从而生成高层语义保持的显著目标,增强特征融合的针对性;特征图优化网络将多个语义级特征融合在一起,从多个尺度优化显著图,从而提供丰富的显著特征帮助模型获得更好的检测结果。 3提出了一种基于循环注意力机制的显著目标检测模型。模型设计了一种面向显著特征计算的视觉注意力选择机制,在当前已感知显著信息的指导下选择与目标对象最相关的特征作为网络的输入。模型引入特征动态编码机制,运用长短时记忆网络中的记忆信息自主挖掘显著目标与视觉特征数据之间的隐含关系,通过网络中的隐含信息影响特征的选择,实现显著性目标检测模型在时间序列上的延拓。多个数据集上的实验结果表明,基于循环注意力机制的显著目标检测模型能够显著提升目标的检测效果。