基于多模态的显著性目标检测方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lanrenlaopan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
显著性目标检测旨在识别出图像中人类最为感兴趣的物体或者区域,并将其完整准确地分割出来,其在计算机视觉领域中扮演着重要的角色,被广泛应用在语义分割、实例分割、目标识别等任务中。经典的显著性检测算法在复杂的场景下,例如:前景目标多、背景和前景区分度不大、背景嘈杂等情况,受限于单模态RGB对外观等特征结构预测能力较弱、对复杂的情况缺乏判别力等,仅使用单模态RGB特征难以获得准确的显著检测结果,因此需要其他模态信息辅助RGB进行显著性检测。文本模态含有类别信息、属性信息;深度模态含有空间结构、位置信息,两种模态都可以帮助显著性检测提升性能。本文主要提出了两种基于多种模态联合学习的显著目标检测算法。第一个是基于文本模态的显著性检测算法,该算法利用图像描述分支生成具有文本模态的图文嵌入向量,该向量含有高级的上下文语义特征、图像类别特征以及物体属性信息,这些特征信息可以辅助显著性物体的检测,并且在该分支给出了新颖的图文双向注意力模块,该模块可以利用文本信息重构图像特征,让图像特征与文本信息准确对应。第二个是基于多模态的显著目标检测算法,利用多任务将RGB、文本、深度三种模态进行了联合学习。在该模型中利用深度信息处理支路生成了具有深度模态的特征,该特征所包含的深度线索对图像的位置和空间结构具有一定的判别能力,这对于显著性检测是有益的,同时在该支路提出了逐级融合模块,可以让深度信息和RGB信息充分融合,避免了模态之间的偏置差异,提高了显著性检测的精度。上述两种算法均在公开的数据集上进行测试,并与近年来优秀算法做了实验对比,都取得了比较优异的结果。
其他文献
视频分割方法对于众多计算机视觉任务非常重要,尤其是在影音娱乐的视频交互应用中。基于深度学习的视频分割方法在测试数据集上显示出比传统方法更高的准确性,但在大多数实际应用中为了自动校正抖动伪像,而付出了更多的时间成本,此外高质量且具有完整标注的视频序列和大规模复杂环境的视频数据集都十分稀缺。本文研究了这种抖动伪影如何降低视频分割结果的视觉质量,发现以神经网络学习为主的算法受到标注质量的影响更大,人工在
Ⅱ型糖尿病是一种慢性代谢性疾病,影响全世界近1亿人。在过去的20年里,确诊患有Ⅱ型糖尿病的成人数量飞速增长。而对糖尿病患者来说,患病后可能会引起的其他并发症是医疗花费主要压力,也是造成患者死亡的最大因素。如果可以提前预测出糖尿病患者罹患并发症的情况,将给医生和患者提供很大的方便。也将大大降低医疗费用支出。当下医学上对于糖尿病并发症的检测,还停留在患者表现出症状以后再进行专门医学检测的阶段。一方面随
手部姿态估计在人机交互、交流表达、机器人抓取等众多场景具有重要应用,也是计算机视觉领域中的研究热点。由于彩色图像缺少绝对的深度信息,从彩色图像中估计手部姿态是一种高维非线性映射,同时人手本身具有自相似和自遮挡等问题,因此从彩色图像估计手部姿态仍然是一个充满挑战的任务。本文基于双目彩色图像对手部姿态估计进行分析和研究,研究内容主要分为以下三个部分:(1)针对从二维图像到空间坐标映射的不确定性问题,本
多目标跟踪是计算机视觉领域的研究热点之一,它在自动驾驶、视频监控、人机交互等领域被广泛应用。其主要任务是在一段视频序列中,将不同视频帧的同一个目标对应起来,每个目标形成不同的运动轨迹。主流的多目标跟踪技术几乎都是基于Detection-Based Tracking(DBT)框架,即先利用检测器识别出感兴趣的目标,再利用嵌入模型(Re-ID)预测目标外观的特征向量,根据检测结果与轨迹外观特征的相似度
近年来,随着光场技术的快速发展,基于多聚焦特征的光场深度估计方法取得了显著的进展。焦点堆栈图像记录了场景在不同深度下的聚焦程度。一系列聚焦在不同深度的焦点切片包含了丰富的空间视差信息,能够很好地揭示场景的三维结构。然而,在多聚焦特征提取中,传统方法存在鲁棒性差、精度低的缺点。现有基于卷积神经网络的方法仅仅利用标准卷积来学习可扩展到整个焦点堆栈的滤波器,忽略了焦点切片之间的空间相关性,导致复杂场景下
目标检测是计算机视觉领域中的一个基础性算法,促进了其他上层技术的发展,在自动驾驶、机器人导航和智能交通等多个领域得到广泛的应用。近年来,2D目标检测算法已经趋于成熟,但是3D目标检测算法尚处于发展阶段,模型的性能还有很大的提升空间,因此3D目标检测算法是计算机视觉领域研究的热点之一。针对3D目标检测算法,本文从锚框的设计、特征的增强以及多模态数据融合等方面进行研究,主要工作内容如下:(1)针对3D
随着我国经济社会的高速发展,国家对社会治安防控体系建设日益重视,监控摄像头的覆盖区域不断增加,但在基于监控视频的事件监测方面仍然存在不足。现有智能视频分析方法主要是从视频中获取特征,缺少与外界要素的联动和知识的导引,对事件分析不够系统全面,关键特征不突出。为此,本文针对治安监控视频下群体性事件监测,基于卷积神经网络改进群体性突发事件的关键特征提取方法,基于知识元表示提出融合视频特征的群体性事件监测
多元时间序列广泛存在于社会生活的各个领域,多个变量之间具有复杂的关联关系。分析多元时间序列变量间的相互影响关系,挖掘系统潜在的蕴含信息,对复杂系统的分析与建模具有重要的现实意义。本文以复杂系统的多元时间序列为研究对象,针对多变量间的因果关系展开研究,为预测模型构建合适的输入特征,最终达到精简模型、提高预测精度的目的。本文的研究内容如下:针对传统的Granger因果模型仅仅适用于二变量、线性系统,无
双目立体视觉技术结合不同视角下的场景信息,通过图像匹配算法实现视差图的计算,进而根据三维几何参数计算场景深度,还原三维空间立体模型。在实际图像采集过程中,由于光照、透射、前景遮挡、低纹理等因素的影响,图像匹配成为立体视觉技术的关键步骤,关系着三维立体模型的精度和效率。同时,伴随自动驾驶等领域的发展,对图像深度信息的获取精度和速度有了越来越高的要求。针对以上问题,本文设计了一种改进的半全局立体匹配算
纵火是一种特殊的犯罪形式,具有犯罪动机复杂,调查取证难的特点。纵火除了造成人员伤亡和财产损失外,还可能会产生巨大的社会影响,并在公众中引起心理恐慌。目前,数据挖掘技术正日益成为预防和打击犯罪的有力工具。在纵火预防策略的研究中,从时空模式出发挖掘纵火发生的聚集规律,将有助于警力与消防资源的部署,提升工作效率,减少响应时间。而对团伙纵火的快速识别,将为案件的侦破和预防提供有效的支撑。为了挖掘纵火事件在