基于视觉显著性分析的目标检测关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:atianjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机的普及以及微信、微博等社交媒体的迅速发展,图像已经越来越广泛地融入到人们的日常生活当中。一图胜千言,图像在为人们的生活、教育和商业带来便利的同时,也为视觉信息处理技术提出了新的挑战。一方面,随着图像数据的爆炸式增长,如何利用有限的计算资源实现海量图像的高效存储、检索和传输变得越来越重要。另一方面,智能时代的应用场景对图像的感知理解提出了新的要求,需要计算设备从大量的视觉信息中选择少量重要部分进行深度分析。受人类的视觉注意力机制启发,研究人员提出的显著性目标检测技术能够预选对图像进行筛选,提取图像中引人关注的目标,排除图像处理中的干扰信息,从而快速提升图像处理的效率。  显著性目标检测技术在理论和算法上都已经取得了巨大进展,在简单场景中可以获得令人满意的检测效果。然而,复杂场景下的显著性目标检测面临着诸多难题需要解决:1)显著目标特征描述问题。目标对象的物体性能够显著提升模型的检测效果,但是复杂背景带来的低对比度、目标自身的内在差异性和目标分布的多样性给前景目标对象的描述带来了重大的挑战,基于人工定义的目标对象描述并不能准确地提取到有效的前景目标对象。2)显著特征的关联融合问题。每种显著特征都有一定的局限性,单一特征往往很难从复杂图像中提取出完整的显著目标对象。不恰当的特征融合方法不仅不能生成符合人类视觉的显著目标,还可能进一步降低显著目标检测模型的准确性。3)显著目标检测模糊问题。人眼对目标场景的信息采集是一个动态持续的过程,显著性目标检测任务与高层、中层和底层三种层次的视觉特征紧密相关,如何在统一的认知框架中生成上述特征的紧致表达是显著目标精准描述的基础。多尺度显著特征的感知是一个自低而上传播和自顶而下反馈结合的复杂处理过程,基于深度学习的检测模型未考虑多尺度视觉特征和显著知识间的关系,因此导致检测中目标细节的缺失和描述的模糊。  针对以上难点与问题,本文对基于拉普拉斯特征映射的显著目标检测,基于深度网络的多显著特征融合,以及基于循环注意力机制的显著目标检测进行了深入的研究,由此构成了一个以鲁棒目标特征描述、深度特征关联融合和多尺度特征动态编码为目标的研究框架。  本文的创新点主要有:  1提出了基于拉普拉斯特征映射的显著性目标检测算法。算法实现了一种基于拉普拉斯特征映射的本征对象生成方法,运用拉普拉斯算子的谱特性将前景目标的定位问题转化为代表前景与背景最佳分割的本征图像搜索问题;算法提出了一种基于本征对象的前景边缘消除算法,有效解决了显著目标物体接触到图像边缘时带来的边缘背景先验失效问题;算法实现了融合本征对象性先验和鲁棒边缘背景先验的显著目标检测模型,同多种主流的显著目标检测算法的对比结果证明了方法的有效性。  2提出了一种基于深度网络的多显著特征融合模型。模型实现了集成前融合网络、后融合网络和特征图优化网络的多通道显著特征深度融合框架。前融合网络能够挖掘显著图之间的相关性,放大多显著特征的共性显著区域,同时抑制共性的非显著背景;后融合网络逐层抽象多种显著特征,从而生成高层语义保持的显著目标,增强特征融合的针对性;特征图优化网络将多个语义级特征融合在一起,从多个尺度优化显著图,从而提供丰富的显著特征帮助模型获得更好的检测结果。  3提出了一种基于循环注意力机制的显著目标检测模型。模型设计了一种面向显著特征计算的视觉注意力选择机制,在当前已感知显著信息的指导下选择与目标对象最相关的特征作为网络的输入。模型引入特征动态编码机制,运用长短时记忆网络中的记忆信息自主挖掘显著目标与视觉特征数据之间的隐含关系,通过网络中的隐含信息影响特征的选择,实现显著性目标检测模型在时间序列上的延拓。多个数据集上的实验结果表明,基于循环注意力机制的显著目标检测模型能够显著提升目标的检测效果。
其他文献
排课是学校教学管理中十分重要且又相当并复杂的管理工作之一。随着高校教育事业的发展,学生人数的不断增加,在教室资源有限的前提下课程编排就显得更加繁重,同时课程的编排
随着计算技术和通信技术的发展,笔记本、PDA、手机等移动设备的便携性和计算能力都得到了很大的提高。将这些设备应用于日常生活以帮助人们提高生活与工作效率成为一种新的需
网格作为一种新兴的基础设施,目的是把地理位置上分散的资源集成起来,通过这种基础设施,用户不需要了解这个基础设施上资源的具体细节就可以使用自己需要的资源,从而实现互联
H.264/AVC(以下简称H.264)是由活动图像专家组和视频编码专家组共同组成的联合视频组JVT制定的新一代国际视频编码标准。预测模式选择和运动估计是H.264标准的关键技术,是视
随着视觉成像设备、计算机网络技术以及移动社交媒体的飞速发展,以图像和视频为主要传播媒介的信息在互联网上呈爆炸式增长。对图像内容的管理和利用的需求也日渐增强,而对图像
Web服务是基于网络的、分布式、自包含、自描述、模块化的应用程序,具有高度的互操作性、跨平台性和松耦合性等特点。随着Web服务研究的不断深入,单个服务越来越难满足用户的
随着关系数据库技术的发展和关键词查询技术的成熟,如何实现关系数据库上的关键词查询这一问题日渐突出,但由于关系数据库采用结构化存储机制,数据被分散存储在关系和元组中,
资源空间模型是一种新的资源管理模型,适应于下一代面向语义、面向知识的智能型网络。分布式资源空间模型是资源空间模型在互联网上的应用,其主要目的是实现海量异构资源的共
随着网络的普及和信息技术的快速发展,近年来,国内许多高校都进行了大规模的校园网络建设,使得校园网内的许多教学软件广泛应用。为了使教学资源更具有开放性,实现教学资源共
WWW技术的迅猛发展为企业和组织提供了良好的契机,同时也产生了大量的Web点击流数据。对Web服务器上的点击流数据进行有效的分析和挖掘能够发现大量潜在有用的信息,能够帮助管