面向不同模态的图像显著性检测模型理论与方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yhz8668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉显著性(Visual Saliency)是视觉感知与场景理解的重要研究内容,涉及认知神经科学、认知心理学、计算机视觉等多个学科。一个场景的显著性区域通常具有人类感兴趣的物体或目标,是能够在较短时间内吸引人视觉注意力的区域。显著性目标检测的目的就是找出给定自然图像中那些感兴趣的目标或区域的过程。近几年来,显著性目标检测已经成为一个热门的研究方向,吸引了越来越多研究者的关注。作为一项基础且重要的视觉任务,显著性目标检测被引入到图像处理中,用于自动定位、预测和挖掘符合人类认知的重要视觉信息,过滤不重要的背景信息,提高信息的处理效率,降低模型计算量。同时,显著性检测能够提供有效的先验性引导信息,可以被应用于弱监督语义分割、目标跟踪、图像编辑等任务中,辅助它们的实现。此外,随着软硬件技术的迅速发展,显著性检测技术在自动驾驶、工业机器人、人机交互等尖端领域也发挥越来越重要的作用。由此可见,显著性检测算法的研究具有广泛的应用前景和深远的科学意义。根据处理图像模态的不同,显著性目标检测衍生出多个不同的子分支,包括以RGB图像为输入的单模态显著性检测;以RGB和深度图为输入的多模态RGB-D显著性检测;以RGB和热红外图像为输入的多模态RGB-T显著性检测;以全聚焦和焦点堆栈为输入的多模态光场显著性检测等。在显著性检测领域,基于RGB图像的研究已经取得了较大的进展。但是,仍然存在显著目标结构分割不完整,提取的目标边缘粗糙、模糊等问题。而相较于RGB单模态显著性检测任务,针对多模态显著性检测的研究还需要进一步深入展开。特别地,当前对基于RGB-T和光场的显著性检测还处于研究初期。基于此,本文依托有效的深度学习理论,围绕上述四种不同输入模态的显著性检测展开相关研究,致力于提出精确、鲁棒的检测算法。具体来说,本文的主要工作和贡献如下:1.语义与细节协同学习的RGB显著性检测算法SDCLNet为了获得精确的显著性预测图,目前的方法主要聚焦于在类U-Net结构中集成多层特征,或引入边缘信息辅助监督。与现有方法关注的重点不同,本文研究了语义和细节在显著性检测中的不同作用,将显著性检测任务分解为内部语义估计和边界细节预测两个并行的子任务,并通过显式约束对各子目标进行优化。具体地,首先采用具有附加层的主干网作为共享编码器,从每幅RGB图像中提取多尺度特征。然后,设计了两个非对称解码器。其中,语义解码器生成粗糙语义掩模,细节解码器生成细粒度的目标边界。最后,一个协作学习块自适应地选择判别特征进行显著性预测。通过这种方式可以有效地融合语义特征和细节信息,生成准确、一致的显著性图。在六个基准数据集上的实验结果表明,所提模型生成的显著性图在主观视觉感知和客观评价指标方面均具有有效性和优越性。2.跨模态多重增强金字塔结构的RGB-D显著性检测算法CMPNet深度图包含几何线索,可以提供有价值的补充信息进而提高显著性检测的性能。现有基于RGB-D的显著性检测方法多采用早期融合、晚期融合或中间融合的方式来探索RGB图像与深度图之间的相关性。然而,这些融合策略未能充分捕捉跨模态和多尺度融合特征。为此,本文提出了一种基于多流结构的多模态增强金字塔网络用于RGB-D显著性检测。具体地,RGB、深度图和它们的组合首先被作为三流主干网的输入以显式地捕获两种模态的个性和共性。然后,设计的跨模态多增强块鼓励来自三个源的跨模态特征在每个网络层上进行综合交互,从而形成多模态金字塔特征。此外,为了将注意力集中在高层语义特征和低层空间结构特征上,提出了一个多尺度特征注意力块来处理不同层。最后,通过跨层融合注意块集成不同层的特征,生成预测的显著性图。实验结果表明,所提算法在五个具有挑战性的基准数据集上的性能优于同时期的其他算法。3.多模态交互注意及双解码的RGB-D/T显著性检测算法MIA-DPD基于RGB的显著性检测算法在处理目标轮廓模糊、前景与背景对比度低等具有挑战性的场景时表现的并不令人满意。为了缓解这一问题,基于RGB-D或RGB-T的显著性检测任务被提出。然而,当前它们通常被视为两个独立的视觉任务。而且,其中大多数方法直接从主干网中提取和融合特征。本文探索了这两个任务之间的潜在共性,提出了一个端到端的统一框架用于RGB-D和RGB-T的显著性检测。具体地,多模态交互注意模块有效地从每个模态中捕获丰富的多层上下文特征,作为特征编码和跨模态解码之间的桥梁。联合注意力引导的跨模态解码模块和多级特征渐进解码模块分别从多源特征和不同层次的融合特征中逐步集成互补特征。分别在RGB-D和RGB-T基准数据集上的实验结果表明,所提算法相较于已有算法在检测精度和模型泛化性方面表现良好。4.双重引导增强的光场显著性检测算法DGENet利用光场数据作为输入的显著性检测模型还没有得到深入研究。现有的深度显著性模型通常将多焦点图像作为独立的信息,单独提取其特征。这类方式可能比较繁琐,且过于依赖设计良好的网络结构。此外,它们没有充分挖掘信息的跨模态互补性和跨层次连续性,很少考虑显著边缘线索。基于上述分析,本文提出了一种考虑空间内容和明确边界线索的双重引导增强网络。具体地,所提模型包含两个关键组件:循环全局引导聚焦模块和边界引导语义积累模块。前者用于提取焦切片和RGB图像在不同网络层间的有效压缩信息,学习到的全局上下文特征通过渐进的反向注意驱动策略引导网络关注显著区域。后者引入显著边缘特征引导显著目标特征的积累,生成边界清晰的显著性图。在三个基准光场数据集上的实验结果表明,所提算法优于同时期的2D、3D和4D方法,而且能更有效地保证目标轮廓的完整性和锐利性。综上,本文从处理图像模态的不同提出一系列数据驱动的模型和方法,并采用理论分析与实验相结合的方式验证了它们的有效性。这些算法的提出丰富了视觉显著性检测领域的研究,为不同模态的图像显著性检测的发展起到了一定的促进作用。此外,本文给出了当前针对不同模态的显著性检测算法面临的问题与挑战,并展望了该领域未来的研究趋势。
其他文献
幼儿教学是我国教育任务中的第一步,关系着我国人才储备和社会发展。首先介绍了幼儿教学中应用多媒体教学方式的意义,然后从教学情境、实验展示、主动学习和复习教学四个方面介绍应用多媒体激发幼儿学习兴趣的具体方案,丰富现阶段幼儿教学内容。
<正>1你是否也过得很没有真实感收到久违的作者来信,讲了讲彼此的近况,然后她说,因为疫情原因大家多多少少都会感到混乱……好像是这样的,这三年时光打马而过,好像也没完成几项计划过的事,打算去旅行的地方也总因为担心疫情而搁浅。然而疫情之下,即使过得再混乱也想在这个转瞬即逝的时间里抓住一些小美好,不让它就那么过去。
期刊
在新的历史交汇期,网络强国建设具有助力中华民族伟大复兴中国梦的实现、满足人民对美好生活向往的需要、推动国家网络空间治理能力现代化、提供世界网络科技发展的中国方案等时代价值。新时代推进网络强国建设需要始终坚持“讲政治”“爱人民”“懂科学”“强法治”“共发展”的基本原则;需要以科学的指导思想引领、以严密的制度体系规范、以领先的信息技术推动、以繁荣的网络文化滋养、以先进的发展理念提升新时代网络强国建设,
立德树人是当下我国教育的主要目标,而互联网技术的发展使得立德树人教育能够以更多元化的方式呈现。本文中笔者将根据自身数学教学经验,对互联网技术下在初中数学教育中践行立德树人教育的途径进行探究。
晏阳初的平民教育思想自20世纪20年代开始成型,经过近百年发展,国内关于其思想理论和实践的研究已经取得一定成果。归纳整理相关文献后发现,20世纪90年代以前,受特定政治环境的影响,国内学者对晏阳初及其思想的研究受到压制甚至批判,基本上都是一些较简单、宏观的论述,思考深度不够。90年代以后,国内学者深受改革开放浪潮的影响,思想得到空前解放。十九大提出的乡村振兴战略的兴起,使学者们对晏阳初思想的研究逐
概述当前装备研发企业的产品质量、研发体系等整体发展形势,对国内研发企业的产品质量现状和主要问题进行分析。提出基于精益研发体系建设促进企业质量管理工作的途径:概述精益研发体系建设特点,重点描述其中质量管理系统的组成、功能,阐述在精益研发平台中实施质量管控的工作原理,分析质量管理系统建设应用的关键要素,并给出相关解决措施。总结精益研发体系建设对于产品质量的提升作用,最后对后续工作及预期效果进行展望。
数字化转型是在信息化、数字化基础上,通过充分挖掘并发挥数据的价值,以实现对教育系统的重塑,这为教育数字化转型创造了有利条件,同时也对教育系统提出了全新的挑战和要求。文章从数字技术发展和教育创新发展两个角度进行分析,发现当前的教育已然具备数字化转型的现实基础。然而,目前人们尚不清楚如何系统地去布局教育数字化转型实践。为此,文章从“转什么”“如何转”“谁来转”“转去哪”四个维度构建了教育数字化转型的行
有砟轨道是一种重要的轨道结构型式,具有建设成本低、自动化及机械化维修效率高等优点。然而,随着铁路运量需求的急剧增长,在高密度、高速度的列车动荷载冲击作用下,对散粒体道床的服役状态带来不利影响。同时我国铁路线路运营里程较长,线路穿越地震断裂带时,地震作用会加剧轨道结构的破坏,对列车的安全运行构成威胁。因此,有必要对地震作用下散粒体道床的振动响应和行车安全性展开研究。鉴于此,本文在分析国内外有砟轨道应
媒体对于活跃金融市场具有积极作用,但同时媒体关注度和投资者情绪的波动也给股市的稳定带来威胁。文章基于我国媒体关注度、投资者情绪与股市波动率数据,运用可识别变量之间动态关系的时变参数向量自回归模型(SV-TVP-VAR)进行实证研究,探究了三者之间的相互作用机制。实证结果表明:第一,投资者情绪和媒体关注度均是影响股市波动的重要因素,且二者对于股市波动的影响均呈现随时间变化的非线性特征。第二,在国内股
涤纶织唛一般不能承受高于100℃蒸汽熨烫。测试不同工艺制得的织唛蒸汽熨烫热缩率,寻找合适的织唛高温熨烫工艺。研究发现:蒸汽熨烫方式对织唛的热缩率影响较大。重点讨论接触与非接触蒸汽熨烫对织唛熨烫热缩率的影响。